La nécessité de l’intéropérabilité des données de la recherche (linked open data, LOD) est la conséquence directe de la révolution numérique. Grace au web, aujourd’hui plus que hier, la science ouverte est réalisable. Ces données représentent les fondements des raisonnements scientifiques qui sont publiés dans les revues scientifiques, les actes de colloque, etc. Leur évolution, leur hétérogénéité et leur volume nécessitent d’établir un plan pour leur gestion. Au niveau français, et pour les sciences humaines, l’infrastructure Huma-Num offre des ressources et un cadre formel.
“La science ouverte consiste à rendre accessible autant que possible et fermé autant que nécessaire” (cnrs, n.d.). Basée sur l’ouverture de données (open data) décrites sémantiquement (thésaurus, iso-standards, etc.) et des métadonnées (metadata), la science ouvert (Open Science) repose sur les principes du FAIR
Facile à trouver |
Accessible |
Interopérable |
Réutilisable |
Repose sur l’attribution d’identifiants uniques (DOI) et un système standardisé de citations, comme les boutons “Citer” ou les liens qui affichent des les principaux formats de références biblographiques (.bib, .tex, etc.). Comme pour citer la page web Golasecca-net et l’article ayant servis à développer cette page:
L’ouverture des données (open data) est à la base de la Science Ouverte, ces données seront accompagnées de métadonnées et recevront une certification
Les données seront intégrées à d’autres. Elles doivent donc être exprimées dans des formats ouverts et internationaux. C’est par exemple le cas du format WKT qui est le format standard, human-readable, pour la représentation des données géographiques.
La provenance, le nom du laboratoire, les méthodes et les équipements utilisés seront sourcés et sous license.
licences | description |
---|---|
ODbL | bases de données ouvertes |
Les données ouvertes seront connectées au web sémantique (linked open data, LOD). Ces données décrites comme des triples structurés sous la forme: sujet-prédicat-objet, au format Resource Description Framework (RDF) et enregistrées selon la syntaxe JavaScript Object Notation for Linked Data (JSON-LD).
Par exemple pour le site d’Uto-Kulm (n° 247) durant la phase Golasecca IIAB-IIIA1:
<- "Uto-Kulm"
site <- "GIIAB_IIIA1_530_450"
per <-'https://raw.github.com/zoometh/golasecca/master/LOD/data/data_temp.csv'
urlfile<- read.csv(urlfile)
df <- df[df[ , "Lieu_dit"] == site & df[ , per] > 0, ]
df.select <- df.select %>% count(Objet)
df.per.count $Site <- site
df.per.countkable(df.per.count,"html",
row.names = F,
caption = "Nombre des différents types d'objets pour
le site d'Uto-Kulm au Golasecca IIAB-IIIA1") %>%
collapse_rows() %>%
kable_styling(full_width = FALSE,
position = "center",
font_size=12)
Objet | n | Site |
---|---|---|
Ceramique grecque | 2 | Uto-Kulm |
Parure Golasecca | 1 |
Où:
Le langage de programmation R, offre différents packages (rdflib, jsonld, etc.) permettant de formater les données de l’étude sous la forme de LOD:
<- rdf()
rdf for (i in 1:nrow(df.per.count)){
%>%
rdf rdf_add(subject = paste0(base, df.per.count[i,"Site"]),
predicate = paste0(base, df.per.count[i,"Objet"]),
object = df.per.count[i,"n"])
} rdf
## Total of 2 triples, stored in hashes
## -------------------------------
## <https://github.com/zoometh/golasecca/tree/main/Uto-Kulm> <https://github.com/zoometh/golasecca/tree/main/Ceramique grecque> "2"^^<http://www.w3.org/2001/XMLSchema#integer> .
## <https://github.com/zoometh/golasecca/tree/main/Uto-Kulm> <https://github.com/zoometh/golasecca/tree/main/Parure Golasecca> "1"^^<http://www.w3.org/2001/XMLSchema#integer> .
Le triple peut être sérialisé sous le format JSON-LD, actuellement le plus populaire pour décrire des données web et qui sera bientôt intégré par Google.
<- paste0(getwd(), site, "_", per,".json")
json.name rdf_serialize(rdf, json.name, "jsonld")
Ce fichier peut ensuite être déposé sur GitHub :
https://raw.githubusercontent.com/zoometh/golasecca/main/LOD/Uto-Kulm_GIIAB_IIIA1.json
Le plan de gestion des données (PGD, data management plan) peut suivre les recommandations européennes H2020 pour la science ouverte et la gestion ouverte des données de recherche
Plan de gestion des données du projet ITINERIS
L’ensemble des données produites ou réutilisées
Les données sont décrites selon les ISO-standards, des thésaurus (i.e., vocabulaires contrôlés, shared vocabularies) déjà existants et par de nouveaux thésaurus
Si la nature des données historico-culturelles (sites archéologiques, contextes stratigraphiques, types des objets, etc.) le permet, celles-ci seront alignées avec les champs et les valeurs du Cultural Heritage Information-Conceptual Reference Model (CIDOC-CRM), un iso-standard (21127:2006) pour la description et l’organisation de l’information liée au patrimoine archéologique et architectural. Dans l’autre cas, le projet produira un thésaurus qui sera FAIRisé.
Le stockage des données se fera généralement sur une base de données (BD) consultable en ligne via un navigateur web. Cette BD peut être hébergée sur les serveurs d’Huma-Num et référencée sur la grille Huma-Num.
Capture d’écran des données liée la BaseFer sur le visualisateur BD/SIG (MySQL/GeoServer) Chronocarto, développé par AOROC et l’entreprise Géocarta
La base de données, peut être rendue interopérable avec les langages de programmation (R, Python, etc.). Pour faciliter leur gestion et leur intéropérabilité, données et métadonnées doivent souvent être retranscrites à la volée par des routines informatiques et selon les formats ouverts et internationaux:
description | format |
---|---|
Représenter/publier les données | JSON-LD |
RDF | |
Décrire les données à partir de vocabulaires | XML-TEI |
Historique des données | VoID |
DCAT | |
PROV-O | |
Recherche de données | SPARQL |
Pour les besoins de cette page web, les données sont stockées sur GitHub:
Les analyses se ditribuent généralement entre les différents axes de recherche, ou work packages (WP)
L’archivage sur le temps long peut se faire sur le CINES (v. Infrastructure Huma-Num)
Généralement, les projets scientifiques orientés vers l’ouverture des données prévoient de publier:
Ces documents et jeux de données peuvent être référencés sur le site web du projet, publiés sur des plateformes en libre accès (e.g. GitLab, OpenEdition) et associés à des identifiants d’objets numériques (digital object identifiers, DOI) prenant en compte leur versionnage (DOI versioning) afin de garantir leur FAIRisation.
L’infrastructure du TGIR Huma-Num – l’instance française de la Digital Research Infrastructure for the Arts and Humanities (DARIAH-EU) – offre une grille de services facilitant l’inscription des projets de recherche dans le contexte de la Science ouverte:
service | logo |
---|---|
Signaler |
|
Traiter |
|
Exposer |
|
Archiver |
|
Stocker |
|
La cohérence de la gestion des données scientifiques du projet peut être assurée par l’utilisation de ces services: développement intégré dans le conteneur d’application logicielles GitLab, échange des documents de travail (working papers, versionnage) sur le ShareDocs, référencement des données avec ISIDORE, etc.