Archivage & partage

L’UNIL, avec l’Université de Zurich, participe activement au projet SWISSUBase mené par le Centre de compétences suisse en sciences sociales (FORS), qui vise à fournir un dépôt de données généraliste, ouvert et pérenne, permettant de se conformer aux principes des données FAIR (FAIR Data Principles), soit des données qui soient Faciles à trouver, Accessibles, Interopérables et Réutilisables.

Ce dépôt institutionnel aura une approche disciplinaire forte, mais également généraliste. Il permettra un partage et un archivage des données à long terme et devrait être accessible au printemps 2021 pour la communauté des linguistes avant l'ouverture à d'autres disciplines.

Sauvegarde, stockage et sécurité : quelles différences ?

Un stockage sûr de vos données de recherche et des sauvegardes régulières sont essentiels pendant votre projet de recherche.

  • La sauvegarde (backup) consiste à créer des copies supplémentaires de vos données en cours. Elle est essentielle pour éviter le risque de perte de données par effacement accidentel, panne de disque dur, vol ou détérioration de l'équipement. Les fichiers stockés sur votre bureau ne sont pas automatiquement sauvegardés. Pour plus d'informations, voir le système de sauvegarde Crashplan de l'UNIL pour votre poste de travail.
  • Le stockage de données fait référence à l'endroit et à la façon dont vous conservez vos données. Il s'agit de :
    • sélectionner les formats de fichiers appropriés (par exemple, choisir entre des options telles que texte brut, texte riche ou des formats ouverts et non propriétaires) ;
    • sélectionner le support approprié pour le stockage physique des données (par exemple, disques durs, USB, stockage en réseau et serveurs, CDs-DVDs, etc.).
  • La sécurité consiste à protéger vos données. Cela signifie de :
    • veiller à ce que les données ne soient pas perdues et à ce qu'elles ne soient pas corrompues ;
    • contrôler l'accès à vos données comme il convient. Cela peut se faire de diverses façons, y compris la sécurité physique (p. ex., le stockage des données dans une pièce verrouillée), la protection par mot de passe des fichiers et le chiffrement.

Comment archiver ses données ?

L'archivage des données n'est pas à considérer comme du stockage, ni de la sauvegarde. L'archivage intervient au-delà de la fin d'un projet de recherche, soit après le stockage courant et celui à long terme (Long term storage), et vise une conservation ad aeternam. Il doit s'accompagner de règles de gestion qui permettent la réutilisation éventuelle des données dans le temps, ainsi que leur bonne compréhension et contextualisation (documentation et métadonnées). C'est pourquoi il est important de veiller à utiliser des standards de fichiers ouverts et non propriétaires (voir les recommandation du UK Data Service), ainsi que des règles de classement et de nommage (voir la partie collecte et organisation).

Le Data Management Plan est un outil qui permet non seulement de gérer ses données durant le projet, mais également d'en assurer une bonne gestion dans le temps (après la fin du projet).

En principe, les données liées à une publication doivent être déposées pour archivage et partage sur un dépôt non commercial répondant aux principes FAIR, sous réserve d’autres exigences formulées par l’organisme de financement de la recherche. Les données non liées à une publication pouront être, de façon provisoire, stockées sur l'infrastructure de stockage long terme du Ci (prendre contact avec la Division calcul et soutien à la recherche). Selon la directive 4.5 de la Direction, les coûts du stockage à long terme et de l'archivage sont pris en charge par l'UNIL.

Le tri et la destruction des données de recherche est de la responsabilité des chercheur·e·s. En cas d’intérêt de l’UNIL à garder des données de recherche dont la destruction est souhaitée par un·e chercheur·se, UNIRIS détermine d’entente avec ce·tte dernier·ière s’il est opportun d’archiver ou de détruire, totalement ou partiellement, les données de recherche concernées.

Quelles données conserver ?

Au-delà de la question sur QUELLES données conserver, une réflexion sur le POURQUOI conserver ainsi que sur les ACTEUR·TRICE·S à impliquer doit être pris en compte afin de savoir ce qui doit être conservé ou non.

Pour UNIRIS, à l'instar de l'étude du Jisc, le POURQUOI conserver les données de recherche repose sur deux aspects :

  1. les données sont un support à l'intégrité de la recherche et à sa reproductibilité ;
  2. les données ont un potentiel de réutilisabilité.

Les questions sur QUELLES données conserver se concentrent alors autour des critères suivants :

  • ceux liés à la mission "recherche", soit :
    • exigence du bailleur de fonds
    • exigence légale
    • exigence de l'éditeur·trice
    • exigence de son institution de rattachement
    • les données soutiennent une publication et des résultats de recherche
    • les données ont un caractère unique
    • les données disposent d'un caractère lié à la notion de patrimoine culturel immatériel
    • originalité des données
    • possibilité d'accès et d'utilisation avérés
  • ceux liés à la nature de la donnée, soit :
    • données brutes
    • données traitées
    • données qui soutiennent une publication et des résultats de recherche
    • données qui synthétisent une recherche
  • ceux liés aux types de données, soit :
    • données d'observation
    • données d'expérimentation
    • données secondaires
    • données négatives
  • ceux liés aux matériaux qui complètent les données, soit :
    • échantillons physiques
    • métadonnées et documentation
    • logiciels utilisés

Enfin, le comité à même de décider de la conservation/archivage devraient se composer des ACTEUR·TRICE·S suivants :

  • les chercheur·e·s qui ont créé/collecté les données
  • le(s) bailleur(s) de fonds
  • l'institut de rattachement du et de la chercheur·e
  • un·e éthicien·ne
  • un·e archiviste
  • un·e gestionnaire (curateur) des données
  • d'autres chercheur·e·s utilisateur·trice·s des données

Les différents domaines de recherche et les institutions qui les abritent devraient également être consultés.

Comment partager ses données ?

Gérer et partager les données de la recherche d'une manière aussi ouverte que possible relève des principes de la bonne pratique scientifique. De manière similaire aux publications scientifiques, le partage des données peut se réaliser via un dépôt généraliste ou un dépôt disciplinaire.

Il est fortement conseillé de partager vos données dans un dépôt FAIR et non-commercial. Afin de faciliter la transition vers des données FAIR, le FNS a défini un ensemble de critères minimaux que les dépôts de données doivent remplir afin de se conformer aux principes FAIR. Une checklist a été produite par le FNS. Il s'agit de répondre positivement aux questions suivantes :

  • Des identifiants uniques et durables (DOI p. ex.) sont-ils globalement attribués aux sets de données (ou idéalement aux fichiers composant ce set) ?
  • La banque de données permet-elle de charger les métadonnées intrinsèques (p. ex. nom de l'auteur·e, contenu du set de données, publications associées, etc.) et celles définies par la personne soumettant les données (p. ex. définition des variables, etc.) ?
  • La licence d'utilisation (CC0 recommandé pour les données et CC BY pour les articles) sous laquelle les données seront accessibles est-elle clairement mentionnée ou l'utilisateur·trice peut-il télécharger/choisir une licence ?
  • Les citations et les métadonnées sont-elles toujours accessibles publiquement (même dans le cas de sets de données à accès restreint) ?
  • La banque de données fournit-elle un formulaire de soumission demandant que les métadonnées intrinsèques respectent un format spécifique (afin d'assurer leur utilisation automatique/interopérabilité) ?
  • La banque de données dispose-t-elle d'un plan de préservation à long terme des données archivées ?

Le site re3data.org recense la plupart des banques de données ainsi que leurs caractéristiques.

Quels dépôts de données à l'UNIL ?

À terme et en attendant un dépôt institutionnel équivalent à SERVAL pour les données (voir projet SWISSUbase ci-dessous), l'UNIL pourrait recommander l'utilisation du dépôt généraliste ZENODO développé par le CERN et financé par l'Union européenne. Chaque faculté de l'Université devrait pouvoir y animer sa communauté facultaire offrant ainsi aux chercheur·e·s de sa faculté la possibilité de déposer et partager ses données. Contactez votre Consultant·e recherche pour plus d'informations.

FORSBase pour les sciences sociales et politiques

Pour les données en sciences sociales et politiques, l'UNIL préconise l'utilisation de FORSBase, développée par FORS, le Centre de compétences suisse en sciences sociales.

Le centre produit des données d'enquêtes nationales et internationales. Il met à disposition des outils pour l'infrastructure de l'information et offre un service de consultation pour les chercheur·e·s.

SWISSUBase pour l'ensemble des domaines de recherche (dès 2021)

L'UNIL travaille actuellement avec FORS et l'UNIZH pour le développement d'un dépôt de données thématiques et généralistes à même de gérer les données de recherche produites à l'UNIL, le projet SWISSUbase.

La PlaTec pour les données qualitatives en sciences humaines et sociales

La PlaTec est le satellite du DaSCH Data and Service Center for the Humanities (DaSCH), institution de l’Académie des Sciences Humaines et Sociales, pour la Suisse romande. Elle assure à ce titre l’accessibilité et l’archivage à long terme des données de recherche en SHS dans le cadre d’une infrastructure numérique et d’un centre de services déployés au niveau national.

La PlaTec accompagne les chercheur·e·s dans la gestion de leurs données de recherche et bases de données, en mettant à disposition l’infrastructure du DaSCH (Knora, Salsah, Sipi) et d'autres services (encadrement, accompagnement, évaluation, etc.).

c4science pour le code informatique

c4science est une infrastructure suisse non-commerciale pour la co-création, conservation, partage et tests de codes scientifiques. Disponible pour l'ensemble de la communauté universitaire suisse et accessible aux collaborateur·trice·s externes, cette plateforme est hébergée sur SWITCHengines, gérée par l'EPFL-SCITAS, créée via EnhanceR.

Suivez nous:    

Le saviez-vous ?

29% des chercheur·e·s de l'UNIL pensent que leurs données devraient être conservées ad eternam.

Enquête 2015 sur les données de recherche

Formats d'archivage

  • Archive web : WARC
  • Containers : TAR, GZIP, ZIP
  • Databases : XML, CSV
  • Données tabulaires : CSV
  • Films : MOV, MPEG, AVI, MXF
  • Géospatial : SHP, DBF, GeoTIFF, NetCDF
  • Images: TIFF, JPEG 2000, PDF, PNG, GIF, BMP
  • Sons : WAVE, AIFF, MP3, MXF
  • Statistiques : ASCII, DTA, POR, SAS, SAV
  • Texte : XML, PDF/A, HTML, ASCII, UTF-8

source : Bibliothèque de Stanford

Cycle de vie des données

Pour mieux comprendre les enjeux du stockage, de l'archivage et du partage des données, voir la notion du cycle de vie des données

Cycle de vie et lieu de stockage des données

Cycle_vie_Data_lieu_stockage.jpg

Partagez: