Sommaire

La parole à… – N° 34 – Jean-Christophe Desconnets, directeur de la Mission infrastructures et données numériques  (MIDN) et Pascal Aventurier, responsable du Service information scientifique et technique de la Mission culture scientifique et technologique, pour une présentation de l’entrepôt de données DataSuds, datasuds.ird.fr, lancé par l’Institut le 6 septembre à Montpellier. Objectif de ce nouveau service numérique : une meilleure visibilité et la réutilisation des résultats de recherche de notre Institut.  

© IR/H. Hensens

Bloc de texte

Qu’est-ce qu’un entrepôt de données ? En quoi est-ce un enjeu pour la recherche ? 

Jean-Christophe Desconnets et Pascal Aventurier : Il est essentiel de bien définir les deux notions qui sont attachées à l’entrepôts de données. Tant la définition de données que celle d’entrepôt peuvent avoir des acceptions différentes selon le champ disciplinaire et leur clarification sont nécessaires pour situer et comprendre les enjeux de l’entrepôt de données DataSuds.

Une donnée de la recherche peut être définie comme « [..] des enregistrements factuels (chiffres, textes, images et sons), [..] sources principales pour la recherche scientifique [..] reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche » (OCDE, 2007). Cette définition recouvre les données dites primaires ou brutes.

Pour les données d’un entrepôt, et plus particulièrement celles de DataSuds, s’ajoute la notion de données d’intérêt c’est-à-dire les données qui peuvent être réutilisés par d’autres scientifiques afin d’améliorer les connaissances par l’enrichissement, la combinaison à d’autres jeux de données. Le plus souvent, les jeux de données qui sont déposés dans un entrepôt sont des données dérivées ou élaborées à partir de données primaires ou brutes.

Un entrepôt de données peut être vu comme un service en ligne permettant de gérer la description d’ensembles de données (par des métadonnées), de les identifier, les partager et d’y accéder avec parfois des restrictions liées à la licence d’utilisation, la sensibilité des données ou encore leur niveau de confidentialité.

DataSuds a pour objectifs d’assurer le stockage et la préservation des données sur le long terme. Préserver et permettre l’accès à de longues séries de données est un enjeu majeur pour l’IRD, un établissement fort d’un patrimoine de plus de 75 ans et qui porte une démarche originale de recherche, d’expertise, de formation et de partage des savoirs au bénéfice des territoires et pays qui font de la science et de l’innovation un des premiers leviers de leur développement. Avec DataSuds, notre ambition est de proposer à nos partenaires scientifiques du Sud un accès et une maîtrise de la diffusion des données qui ont été collectées et élaborées en collaboration.

La mise en place de DataSuds s’inscrit dans la dynamique du Plan national pour la science ouverte lancé par la ministre Frédérique Vidal en juillet 2018 dont l’un des axes majeurs est la structuration, la conservation, mais aussi l’ouverture des données de la recherche.

Plus largement, la science ouverte est une opportunité pour amorcer un changement dans nos pratiques de gestion et de valorisation de nos productions scientifiques afin d’en permettre une diffusion plus large et sans entrave.  De ce point de vue, l’entrepôt de données DataSuds permet d’établir le lien entre les données et les publications, et complète ainsi le dispositif de diffusion des productions scientifiques dans lequel l’IRD s’est engagé depuis déjà de nombreuses années. 

Bloc de texte

Pourquoi un entrepôt spécifique mis en place par l’IRD ? 

J.-C. D. et P. A. : Au-delà des grands principes de la science ouverte auxquels adhère l’Institut, l’IRD met en place une démarche institutionnelle visant à mieux maîtriser le cycle de vie de la donnée scientifique au sein de ses unités mixtes de recherche (UMR) et de ses dispositifs partenariaux (LMI, JEAI, GDRI).

La création de DataSuds s’inscrit dans cette nouvelle dynamique qui vise donc à construire une culture de la donnée et changer nos pratiques de gestion qui entraînent trop souvent une perte de nos productions ou leur faible visibilité. Des études montrent en effet que de nombreuses données sont soit stockées sur les ordinateurs des chercheurs, soit déposées sur des espaces partagés mais sont peu documentées ce qui les rend inaccessibles pour d’autres chercheurs. Or le coût de collecte, d’acquisition des données est très important, en particulier dans les zones et les thématiques d’intervention de l’IRD. DataSuds doit permettre de découvrir, accéder et stocker décrire et citer les jeux de données dans des formats de description standardisés.

DataSuds est un des programmes phares du Schéma directeur numérique de l’IRD 2019-2023, dont l’un des axes est de développer le numérique pour la science et le développement avec notamment pour objectif d’outiller et renforcer une science ouverte au Sud. La préservation, la valorisation et la maîtrise de la diffusion de notre riche patrimoine de données permettra une meilleure maîtrise du partage et de la valorisation des résultats de la recherche de nos partenaires Sud.

Centré sur la longue traîne des données, c’est-à-dire les nombreux petits jeux de données non accessibles et non organisés, DataSuds permet de décrire, d’identifier, de publier des ensembles de données augmentant ainsi leur potentialité de découverte, citation et réutilisation par d’autres équipes, d’autres organismes.
Les scientifiques de l’IRD peuvent bien évidemment déposer leurs données dans d’autres entrepôts dans la mesure où elles répondent à certains critères (condition des bailleurs ou des journaux scientifiques, certification). Dans ce cas, DataSuds récupèrera les métadonnées et pointera vers les données de l’entrepôt d’origine.

L’entrepôt DataSuds vient donc en complément de ceux des systèmes d’observation (observatoires des sciences de l'univers, services nationaux d'observation) qui ont récemment été agrégées autour d’infrastructures de recherche (TGIR ou IR). L’articulation de DataSuds avec les autres entrepôts institutionnels ou disciplinaires et ceux des systèmes d’observation est bien identifiée. Il vient compléter les grands ensembles de données gérés et diffusés par ces dispositifs. Enfin, l’interconnexion des différents entrepôts, tant sur les volets gouvernance que technique, va faire l’objet d’une étude approfondie qui débutera en novembre avec BRIDGE (Bridge Research through Interoperable Data Governance and Environments) un projet financé par l’ANR dans le cadre du Plan pour la science ouverte. Ce projet sera coordonné par l’IRD, avec l’INRA et le CIRAD. Il vise notamment à élaborer des propositions de diffusion des données qui tiennent compte des réalités de productions interinstitutionnelles des UMR. 

Bloc de texte

A quels besoins des équipes l’entrepôt répond-t-il ? 

J.-C. D. et P. A. : La rencontre des équipes de recherche, en préalable à la création de DataSuds, a fait ressortir des besoins variés autour des données accumulées au fil du temps et sur les données qui sont actuellement produites : la sauvegarde de données en danger (une base de données historique, par exemple, qui n’a jamais été diffusée et qui est entre les mains d’un agent qui part à la retraite), le besoin de fournir un identifiant permanent (comme un DOI) pour assurer la citation de son jeu de données en lien avec la publication d’un article, la demande d’un éditeur qui souhaite avoir accès aux jeux de données à l’origine d’une publication, la création d’un data paper (publication décrivant un ou plusieurs jeux de données scientifiques), la visibilité des données ou leur réutilisation par d’autres en vue de nouvelles collaborations…

DataSuds répond ainsi à de nouvelles formes de diffusion, de valorisation des données de la recherche et constitue un levier majeur pour améliorer la visibilité et la qualité des travaux de recherche d’une équipe, d’un scientifique. Une dizaine d’ateliers avec les chercheurs de l’IRD a d’ores et déjà été réalisée et a permis d’évaluer les besoins très importants des chercheurs  en matière de gestion de données de la recherche. 

 

Comment se déroule la mise en place de l’entrepôt ? 

J.-C. D. et P. A. : La mise en place de l’entrepôt de données DataSuds est une démarche collective qui nécessite de l’expertises et des compétences dans le domaine de la gestion des données, des infrastructures numériques, du droit de la donnée, de sa valorisation, de la formation aux pratiques de gestion des données. Conçue dès le départ comme transversale, elle implique les trois pôles de l’Institut ─ Science, Développement et Appui ─, et tout particulièrement les scientifiques.

La mise en place de DataSuds s’appuie sur une équipe de pilotage composée de la MIDN, l’IST et la DDUNI,  au moins un référent données au sein de chaque UMR qui assure l’interface entre les équipes de pilotage et de gestion de l’entrepôt,  et un administrateur de données, Luc Decker (data@ird.fr),  qui coordonne les différentes actions.

Cette organisation est essentielle pour identifier les besoins, proposer un accompagnement adapté aux différentes disciplines, pour aider les chercheurs à déposer leurs données mais aussi rédiger les plans de gestion de données en amont de leur projet de recherche. Elle va être complétée par l’appui de la DAJ, et du SIV qui apporteront, au plus tôt lors de la rédaction d’un projet de recherche en partenariat, leurs éclairages et leurs conseils afin d’inclure dans les conventions de recherche les précisions explicites concernant les droits de diffusion, les licences d’utilisation, le niveau d’ouverture des données, en conformité avec la législation et la politique de valorisation de l’IRD.

 

© IRD/M. Tapiau

Bloc de texte

L’entrepôt de données DataSuds a été lancé le 6 septembre à Montpellier, lors d’un séminaire qui a été l’occasion de rassembler et partager plus largement cette dynamique avec les chercheurs, les ingénieurs, directeurs d’unités de l’IRD, et nos partenaires nationaux. Cet événement a réuni plus de 135 participants et a permis de mesurer l’intérêt et les questions posées par la gestion et l’ouverture des données de la recherche. Il a également élé l’occasion d’initier des discussions, par grands champs disciplinaires, sur la mise en place de plans de gestion de données comme cadre pour une gestion partagée et maîtrisée au sein des UMR.

Des besoins d’informations, de mise en place d’une culture de la donnée, d’accompagnement des scientifiques, tant sur les aspects techniques que juridiques ou de valorisation, ont été exprimés. Ces retours nous confortent dans la nécessité de systématiser l’organisation d’ateliers de sensibilisation, d’information et de formation autour de la gestion et le dépôt de données. Ils seront réalisés préférentiellement à l’échelle des UMR.

Un site support est d’ores et déjà ouvert pour accompagner les chercheurs : data.ird.fr. Vous pouvez y trouver un ensemble d’informations et de recommandations, ainsi que des ressources et services sélectionnés pour la gestion des données de la recherche à l’IRD et, plus généralement, la promotion de la Science ouverte pour le développement.

Du 23 au 25 octobre, nous organisons  à Dakar avec le CIRAD et l’Université Cheikh Anta Diop de Dakar un colloque international, Science ouverte au Sud : enjeux et perspectives pour une nouvelle dynamique. Cette rencontre qui se tiendra sous le patronage de l’UNESCO, nous donnera l’occasion de projeter et de partager la dynamique initiée à l’IRD vers nos partenaires africains. 

Une courte vidéo pour découvrir DataSuds