logo

La nécessité de l’intéropérabilité des données de la recherche (linked open data, LOD) est la conséquence directe de la révolution numérique. Grace au web, aujourd’hui plus que hier, la science ouverte est réalisable. Ces données représentent les fondements des raisonnements scientifiques qui sont publiés dans les revues scientifiques, les actes de colloque, etc. Leur évolution, leur hétérogénéité et leur volume nécessitent d’établir un plan pour leur gestion. Au niveau français, et pour les sciences humaines, l’infrastructure Huma-Num offre des ressources et un cadre formel.

Science ouverte

La science ouverte consiste à rendre accessible autant que possible et fermé autant que nécessaire(cnrs, n.d.). Basée sur l’ouverture de données (open data) décrites sémantiquement (thésaurus, iso-standards, etc.) et des métadonnées (metadata), la science ouvert (Open Science) repose sur les principes du FAIR

Facile à trouver
Accessible
Interopérable
Réutilisable

Facile à trouver

Repose sur l’attribution d’identifiants uniques (DOI) et un système standardisé de citations, comme les boutons “Citer” ou les liens qui affichent des les principaux formats de références biblographiques (.bib, .tex, etc.). Comme pour citer la page web Golasecca-net et l’article ayant servis à développer cette page:

https://raw.githubusercontent.com/zoometh/golasecca/main/bibliographie.bib

Accessible

L’ouverture des données (open data) est à la base de la Science Ouverte, ces données seront accompagnées de métadonnées et recevront une certification

Intéroperable

Les données seront intégrées à d’autres. Elles doivent donc être exprimées dans des formats ouverts et internationaux. C’est par exemple le cas du format WKT qui est le format standard, human-readable, pour la représentation des données géographiques.

Réusable

La provenance, le nom du laboratoire, les méthodes et les équipements utilisés seront sourcés et sous license.

Exemples de licences utilisées dans le projet
licences description
ODbL bases de données ouvertes

Les données ouvertes seront connectées au web sémantique (linked open data, LOD). Ces données décrites comme des triples structurés sous la forme: sujet-prédicat-objet, au format Resource Description Framework (RDF) et enregistrées selon la syntaxe JavaScript Object Notation for Linked Data (JSON-LD).

Par exemple pour le site d’Uto-Kulm (n° 247) durant la phase Golasecca IIAB-IIIA1:

site <- "Uto-Kulm"
per <- "GIIAB_IIIA1_530_450"
urlfile<-'https://raw.github.com/zoometh/golasecca/master/LOD/data/data_temp.csv'
df <- read.csv(urlfile)
df.select <- df[df[ , "Lieu_dit"] == site & df[ , per] > 0, ]
df.per.count <- df.select %>% count(Objet)
df.per.count$Site <- site
kable(df.per.count,"html",
      row.names = F,
      caption = "Nombre des différents types d'objets pour 
le site d'Uto-Kulm au Golasecca IIAB-IIIA1") %>%
  collapse_rows() %>%
  kable_styling(full_width = FALSE,
                position = "center",
                font_size=12)
Nombre des différents types d’objets pour le site d’Uto-Kulm au Golasecca IIAB-IIIA1
Objet n Site
Ceramique grecque 2 Uto-Kulm
Parure Golasecca 1

Où:

  • Site = sujet
  • Objet = prédicat
  • n = objet

Le langage de programmation R, offre différents packages (rdflib, jsonld, etc.) permettant de formater les données de l’étude sous la forme de LOD:

rdf <- rdf()
for (i in 1:nrow(df.per.count)){
  rdf %>% 
    rdf_add(subject = paste0(base, df.per.count[i,"Site"]), 
            predicate = paste0(base, df.per.count[i,"Objet"]), 
            object = df.per.count[i,"n"]) 
}
rdf
## Total of 2 triples, stored in hashes
## -------------------------------
## <https://github.com/zoometh/golasecca/tree/main/Uto-Kulm> <https://github.com/zoometh/golasecca/tree/main/Ceramique grecque> "2"^^<http://www.w3.org/2001/XMLSchema#integer> .
## <https://github.com/zoometh/golasecca/tree/main/Uto-Kulm> <https://github.com/zoometh/golasecca/tree/main/Parure Golasecca> "1"^^<http://www.w3.org/2001/XMLSchema#integer> .

Le triple peut être sérialisé sous le format JSON-LD, actuellement le plus populaire pour décrire des données web et qui sera bientôt intégré par Google.

json.name <- paste0(getwd(), site, "_", per,".json")
rdf_serialize(rdf, json.name, "jsonld") 

Ce fichier peut ensuite être déposé sur GitHub :

https://raw.githubusercontent.com/zoometh/golasecca/main/LOD/Uto-Kulm_GIIAB_IIIA1.json

Plan de gestion des données

Le plan de gestion des données (PGD, data management plan) peut suivre les recommandations européennes H2020 pour la science ouverte et la gestion ouverte des données de recherche

Plan de gestion des données du projet ITINERIS

Collecte

L’ensemble des données produites ou réutilisées

Description

Les données sont décrites selon les ISO-standards, des thésaurus (i.e., vocabulaires contrôlés, shared vocabularies) déjà existants et par de nouveaux thésaurus

Si la nature des données historico-culturelles (sites archéologiques, contextes stratigraphiques, types des objets, etc.) le permet, celles-ci seront alignées avec les champs et les valeurs du Cultural Heritage Information-Conceptual Reference Model (CIDOC-CRM), un iso-standard (21127:2006) pour la description et l’organisation de l’information liée au patrimoine archéologique et architectural. Dans l’autre cas, le projet produira un thésaurus qui sera FAIRisé.

Stockage

Le stockage des données se fera généralement sur une base de données (BD) consultable en ligne via un navigateur web. Cette BD peut être hébergée sur les serveurs d’Huma-Num et référencée sur la grille Huma-Num.

Capture d’écran des données liée la BaseFer sur le visualisateur BD/SIG (MySQL/GeoServer) Chronocarto, développé par AOROC et l’entreprise Géocarta

La base de données, peut être rendue interopérable avec les langages de programmation (R, Python, etc.). Pour faciliter leur gestion et leur intéropérabilité, données et métadonnées doivent souvent être retranscrites à la volée par des routines informatiques et selon les formats ouverts et internationaux:

Base de données
description format
Représenter/publier les données JSON-LD
RDF
Décrire les données à partir de vocabulaires XML-TEI
Historique des données VoID
DCAT
PROV-O
Recherche de données SPARQL

Pour les besoins de cette page web, les données sont stockées sur GitHub:

https://github.com/zoometh/LOD

Analyses

Les analyses se ditribuent généralement entre les différents axes de recherche, ou work packages (WP)

Archivage

L’archivage sur le temps long peut se faire sur le CINES (v. Infrastructure Huma-Num)

Publication

Généralement, les projets scientifiques orientés vers l’ouverture des données prévoient de publier:

  • du code informatique sous la forme de fonctions, de librairies ou de packages
  • des jeux de données (datasets)
  • des documents de travail (working papers) avec du versionnage de DOI
  • des documents de données (data papers)
  • des articles scientifiques

Ces documents et jeux de données peuvent être référencés sur le site web du projet, publiés sur des plateformes en libre accès (e.g. GitLab, OpenEdition) et associés à des identifiants d’objets numériques (digital object identifiers, DOI) prenant en compte leur versionnage (DOI versioning) afin de garantir leur FAIRisation.

Infrastructure Huma-Num

L’infrastructure du TGIR Huma-Num – l’instance française de la Digital Research Infrastructure for the Arts and Humanities (DARIAH-EU) – offre une grille de services facilitant l’inscription des projets de recherche dans le contexte de la Science ouverte:

Grille des services de la TGIR Huma-Num
service logo
Signaler
Traiter
Exposer
Archiver
Stocker

La cohérence de la gestion des données scientifiques du projet peut être assurée par l’utilisation de ces services: développement intégré dans le conteneur d’application logicielles GitLab, échange des documents de travail (working papers, versionnage) sur le ShareDocs, référencement des données avec ISIDORE, etc.

References

cnrs. n.d. “Science Ouverte.” https://www.science-ouverte.cnrs.fr/.