Bonnes pratiques pour la description des géo-données LISAH

Author
Affiliation

Viqui Agazzi

Modified

October 2, 2024

Le contenu de ce site concerne la saisie des métadonnées descriptifs pour les données géo-référencés produites au LISAH.

Le suivi de ces pratiques augmentent le degré de FAIRisation des jeux de données ainsi décrits.

Les bonnes pratiques décrites ci-dessous se présentent en cohérence avec des préconnisations en terme de documentation de données dans le contexte du la Science Ouverte. Ces recommandations s’appuient sur des guides de qualité des dispositifs suivants :

Métadonnées générales : modèle de données ISO19115/139

Titre

Le titre doit être compréhensible de lui-même : titre complet le plus informatif possible. Le titre comprends la caractérisation du jeu de données : type de données, contexte, période de collecte, localisation géographique - si applicable et pertinent. Le cas échéant, le jeu de données et l’article associé devraient avoir des titres distincts ; une solution : « Replication data for… » ou « Supplementary data for… ».

À éviter dans le titre :

  • abréviations ; sauf exception (abréviations connues et normalisées)
  • parenthèses ; sauf exception (par exemple pour un nom latin d’espèce, selon le journal)
  • mots inutiles : Étude de, Analyse de l’effet de, Contribution à l’avancement, Considérations sur, Remarques à propos de, Information sur…
  • attention : les affixes pre, post, anti…, peuvent nuire à la recherche sur le web.

Description

Résumé décrivant le jeu de données : intérêt, objectifs, contexte de production et son potentiel de réutilisation. Il est à l’image d’un résumé d’article.

Répondre aux questions que les utilisateurs potentiels pourraient se poser avant d’aller plus loin et de télécharger les données. Participe au bon référencement du jeu de données : Principe FAIR « Réutilisables ».

Contacts

Personne(s) physique(s) ou morale(s) qui ont contribué à la production des données, rôle scientifique, technique, logistique : collecte, traitement, vérification, calcul, conception d’outil, supervision.

Il est possible mais rare qu’un jeu de données ait un seul auteur. Dans le contexte LISAH il est conseillé de décrire à minima 3 types de contacts :

  • Fournisseur
  • Auteur(s)
  • Gestionnaire(s)

Fournisseur

L’unité de recherche (UMR LISAH) est identifié comme fournisseur du jeu de données.

  • Affiliation (même que dans HAL) : UMR LISAH - INRAE, IRD, Institut Agro Montpellier, AgroParisTech
  • Lien URL vers le référentiel [scanR] pour la ressource LISAH (https://scanr.enseignementsup-recherche.gouv.fr) : https://scanr.enseignementsup-recherche.gouv.fr/entite/197217858M

Capture contact fournisseur

Auteur(s)

Personnes qui ont contribué à la production des données identifiés par leurs coordonnées :

  • Nom et prénom,
  • Courriel, si possible institutionnel.

Capture contact Auteurs

Gestionnaire(s)

Pôle ou/et personnes à charge de la gestion du jeu de données identifiés par :

  • Nom du pôle en question, à défault nom et prénom de la personne,
  • Courriel générique du pôle, à minima un courriel institutionnel d’une personne référente (priorité aux permanents).

Capture contact Gestionnaire

À amélliorer dans les contacts :

  • Ajout d’une href pointant vers : 1. scanR/ROR pour l’UMR et 2. ORCID pour les auteurs et gestionnaires.

Mots clés

Les mots clés sont une aide précieuse à la découverte des données. La saisie peut concerner uniquement les mots clés, ou bien les mots clés associés à leurs URI (Uniform Resource Identifier) à partir d’un thésaurus de référence. L’ajout des URI pour les mots clés augmente l’intéropérabilité sémantique des jeux de données ainsi décrits.

Capture keywords

Mots clés à partir de thésaurus

Liste (non exhaustive) des thésaurus généralistes, thématiques et institutionnels identifiés autours des thématiques scientifiques de l’UMR LISAH.

  • INRAE : Thésaurus ouvert et partagé couvrant les domaines de recherche d’INRAE. Il sert de référentiel au sein de l’institut pour indexer et annoter des documents, pages web, descriptions d’activités, jeux de données, à des fins de recherche ou d’analyse de l’information. Contribuez en proposant des modifications, ajouts ou corrections du thésaurus en cliquant sur ‘Nous contacter’.

  • Vocabulaire de mots-clés disciplinaires de l’IRD : Ce vocabulaire décrit des mots-clés disciplinaires mis en relation avec différents référentiels disciplinaires de la recherche scientifique.

  • GeoNames : The GeoNames geographical database covers all countries and contains over eleven million placenames that are available for download free of charge.

  • Agrovoc : AGROVOC is a relevant Linked Open Data set about agriculture available for public use and facilitates access and visibility of data across domains and languages. It offers a structured collection of agricultural concepts, terms, definitions and relationships which are used to unambiguously identify resources, allowing standardized indexing processes and making searches more efficient. AGROVOC uses semantic web technologies, linking to other multilingual knowledge organization systems and building bridges between datasets.

  • UNESCO : The UNESCO Thesaurus is a controlled and structured list of terms used in subject analysis and retrieval of documents and publications in the fields of education, culture, natural sciences, social and human sciences, communication and information. Continuously enriched and updated, its multidisciplinary terminology reflects the evolution of UNESCO’s programmes and activities.

  • GEMET INSPIRE : Le registre de thèmes INSPIRE contient les thèmes INSPIRE tels que définis dans les annexes de la directive INSPIRE (directive 2007/2/CE du Parlement européen et du Conseil du 14 mars 2007 établissant une infrastructure d’information géographique dans la Communauté européenne (INSPIRE)). Les descriptions des thèmes sont basées sur la version 3.0 du document “Definition of Annex Themes and Scope (D 2.3)” rédigé par l’équipe de rédaction des spécifications de données. Ces définitions ont ensuite été mises à jour par les groupes de travail thématiques INSPIRE (TWG).

  • NAL Agriculture : The NAL Agricultural Thesaurus (NALT) vocabulary has in-depth coverage of agriculture, biology, and related disciplines. The semantic structure allows for multiple domain specific vocabularies within the NALT Concept Space, and is standardized for data interoperability, enhanced scalability, and machine readability.

  • Ozcar Theia : Thesaurus for in situ data from Environmental and Critical Zone Sciences. Used by Theia/OZCAR information system

  • Incubateur Data Terra : Ensemble de thésaurus conçus pour permettre l’intéropérabilité sémantique des jeux de données d’observation du système Terre : Type d’objet d’interêt, variable ou propriété observé, type de capteur et plateforme.

Droits à la réutilisation et accès aux données

Si des conditions particulières sont imposées pour l’usage de certaines données, la licence choisie doit être cohérente vis-à-vis de ces dispositions. Dans le cas de la licence CC-BY par exemple, les utilisateurs qui obtiennent l’accès aux données disposent du droit de les rediffuser librement par eux-mêmes. Ce type de licence ne convient donc pas aux fichiers dont l’accès est restreint : ne pas attribuer de licence ouverte à des données fermées, sauf en cas d’embargo temporaire.

Si les données sont disponibles par ailleurs, tel que sur le site web du projet, la licence doit être cohérente et compatible avec les indications données par le site qui héberge les données.

Licence de réutilisation

Texte juridique définissant les conditions de diffusion et de réutilisation d’une production (par exemple : Creative Commons).

En France, un décret liste les licences que les administrations peuvent utiliser pour diffuser des données publiques : Licences de réutilisation.

Par défaut, l’entrepôt DataSuds attribue une licence CC-BY au jeu de données. La licence CC-BY demande à ce que le jeu de données soit cité lorsqu’il est utilisé ; elle est conforme aux préconisations du MESRI pour les projets sur financement public.

Voici un schéma d’aide au choix pour les licences Creative Commons :

schéma d’aide au choix pour les licences Creative Commons

À éviter : Les licences de type CC-BY-ND peuvent convenir pour un document, mais sont déconseillées pour des données : elles n’autorisent pas les travaux dérivés, donc les réutilisations.

Si les données sont ouvertes, le formulaire en ligne Choose your CC license peut aider à choisir un modèle standard de licence. Cette licence devra être acceptée et respectée par les utilisateurs qui téléchargent puis utilisent les données.

Contraintes d’accès : embargo

L’accès à un certain jeu de données peut être restreint temporairement. Cette période doit être indiqué dans la description du jeu de données, ainsi que la date d’ouverture des données.

Couverture dans l’espace et le temps

Spatiale

Ces champs de métadonnées sont à saisir si les données ont été collectées dans un/des périmètre(s) géographique(s) déterminé(s) : pays, villes, région su monde.

  • Nom de l’élément géographique identifié.
  • Emprise géographique de type BoundingBox exprimé en EPSG4326

Capture spatial region

Couverture temporelle

Période couverte par les données. Différent des dates de codage, de création des fichiers, ou de collecte des données. Pour le cas particulier d’une collection de type série temporelle alimenté en permanence, la date de fin peut ne pas être renseigné.

Généalogie / traçabilité

La description de la généalogie fait référence à la provenance du jeu de données, à la description des sources et du processus de production de la ressource. Ceci peut être présenté comme une succession d’étapes : identification des sources (quels capteurs ou outils les génèrent), décrire comment les données se transforment au cours de leur cycle de vie.

Ressources en lien avec le jeu de données (Linked data)

En complément des fichiers de données, il est conseillé d’intégrer aux métadonnées des lien vers toute documentation étroitement liée aux données pouvant ainsi aider à comprendre les données, à préserver leur histoire, les conditions de leur collecte ou de leur production. Les liens à saisir sont des liens perennes, dans l’idéal des identifiants uniques pour les ressources numériques ex. DOI.

Voici des suggestions de documentations qui peuvent accompagner des données : fiche de présentation du projet de recherche (éventuellement sous forme de diapositives) ; figures, schémas, cartes, photographies ; formulaires vierges de collecte de données ou/et de recueil du consentement des participants ; guide de l’enquêteur ; guide de traitement des données ; procédure ou algorithme de traitement des données, code informatique ; notes techniques ; Plan de Gestion de Données ; protocole de l’étude ; accord d’un comité d’éthique.

Capture linked data

Système de référence spatial

Le système de référence spatial source des données géoréférencés doit être décrit en suivant un référentiel standard, ex. EPSG. En complément, une URI peut être décrite pour améliorer l’intéropérabilité : un graphe référentiel des EPSG est mis à disposition par l’OGC sur le serveur de vocabulaires OpenGIS.

Capture CRS

Métadonnées obligatoires pour l’obtention de DOI : modèle de données DataCite

Titre

Voir contenu à partir de Titre pour les métadonnées générales.

Auteur

Voir contenu à partir de Auteur(s) pour les métadonnées générales.

Type de données

Le type de données doit être spécifier, la plus part du temps la valeur est Dataset (Jaux de données), il est possible que l’ensemble décrit correspond à une collection de données, dans ce dernier cas la valeur de saisie est Series.

Date de publication

Date à partir de laquelle les données sont disponibles.

Distributeur de données

Organisme désigné par l’auteur ou le producteur pour la diffusion des données. Dans le cas particuliers des données géorréférencés du LISAH :

Capture distributeur datasuds.fr

Identifiant unique

Identifiant alphanumérique unique de type e04f0cd7-3ee7-4904-96d9-ab5743d797ba assigné par GeoNetwork à la création de l’ensemble de métadonnées.

Creative Commons License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

To learn more about Quarto websites visit https://quarto.org/docs/websites.