DATAtourisme, la plateforme nationale ouverte
des données du tourisme

FOIRE AUX QUESTIONS : format des données

Oui. Les données sont structurées et documentées selon l’ontologie DATAtourisme. Ce format, dit sémantique, présente un concept racine qui est PointOfInterest (abrégé POI) sur lequel se greffent ses caractéristiques. Par exemple, un POI contiendra toujours une propriété Date de dernière mise à jour qui sera toujours diffusé au format AAAA-MM-JJ. Toutes les caractéristiques définissant un POI, mais aussi l’ensemble des valeurs possibles pour chaque caractéristique, lorsqu’elles sont limitées à une liste (principe de thésaurus, ou base de connaissances), sont décrites dans la documentation de l’ontologie DATAtourisme. Elles peuvent aussi être visualisées sous forme de graphe à l’adresse http://datatourisme.fr/ontology/visualization/.

Une ontologie est une représentation partagée et consensuelle de l’ensemble des concepts d’un secteur ou domaine donné, liés entre eux par des relations taxonomiques et sémantiques. On peut imaginer cela comme la structure de la base de données. D’un point de vue informatique, c’est un outil qui permet de représenter un corpus de connaissances sous une forme lisible par une machine. L’ontologie DATAtourisme est le modèle de données permettant de structurer les données d’information du secteur du tourisme. Elle a été créée en 2015 sous l’égide de l’Etat, dans le cadre du projet DATAtourisme. L’ontologie DATAtourisme s’appuie essentiellement sur des modèles et référentiels standards existants : son profil sémantique est connecté aux principales ontologies déployées dans le monde afin de ne pas faire doublon sur des domaines déjà décrits et faciliter ainsi les liaisons avec les autres bases de données ouvertes : Schema, Dublin Core, FOAF, GoodRelations … La version actuelle de l’ontologie DATAtourisme couvre un périmètre permettant d’appréhender l’ensemble des points d’intérêts dits « touristiques » recensés par les Offices de Tourisme, Agences Départementales et Comités Régionaux du Tourisme : événements, sites naturels, patrimoniaux, culturels ou de loisirs, visites et activités, itinéraires, hébergements, commerces et services, ou encore restaurants. Son graphe peut être visualisé sur http://datatourisme.fr/ontology/visualization/ C’est dans ce format dit « standard » et « sémantique » que sont diffusées les données depuis la plateforme DATAtourisme.

Les données sont décrites selon la base de connaissance DATAtourisme associée à l’ontologie du même nom. L’ensemble des valeurs possibles est disponible dans la documentation de l’ontologie (fichier « Thésaurus »).

Les données sont décrites selon un format dit « sémantique » – l’ontologie DATAtourisme – permettant de stocker des données de manière relationnelle et faciliter ainsi leur traitement automatique par une machine. L’ontologie DATAtourisme présente les données sous forme de graphe RDF. Il s’agit d’un modèle de données ne pouvant pas être représenté « à plat ». La plateforme DATAtourisme permet aux diffuseurs de télécharger les données selon plusieurs formats (ou syntaxes) de sérialisation : XML, CSV, Json, SQL, RDF-XML, NT, Turtle, Json structuré, Json compacté, HDT. Quel que soit le format choisi par le diffuseur, les données restent présentées sous forme de triplets RDF identifiées par des URI. Des ressources sont disponibles sur internet pour se familiariser si nécessaire avec ces technologies du Web Sémantique.

A noter qu’il est également possible de télécharger des données au format CSV en consultant la page DATAtourisme du site Data.gouv.fr. Ces fichiers sont cependant simplifiés : tous les POI sont recensés mais le niveau de description de chaque point est limité (moins de champs de description).

Mise à jour juin 2020 : les données sont également disponibles au format JSON et XML (fichier ZIP contenant 1 fichier JSON ou XML par point d’intérêt ainsi qu’un fichier d’index. Voir détails sur le support.

Une base de données RDF est composé d’une liste de triplets, correspondant à l’unité la plus élémentaire pour décrire une donnée. Un triplet RDF est une association sujet, prédicat, objet :

  • Le sujet représente la ressource à décrire et est identifié par un identificateur de ressource internationalisé (IRI) qui ressemble en tout point à une adresse web ;
  • Le prédicat représente un type de propriété applicable à cette ressource et est également représenté par un IRI ;
  • L’objet représente une donnée ou une autre ressource : c’est la valeur de la propriété. Il peut être soit une ressource (identifiée par un IRI) soit un littéral (texte, nombre…).

L’ensemble des triplets récupérés définissent les liens qui constituent le graphe des données.

Effectivement, les données sont mises à disposition sous forme de triplets RDF, formant un graphe de données. Les liens IRI renvoient vers les différentes ressources de la base de données. La richesse de la base de données DATAtourisme ne permet pas de délivrer les données à plat, dans un tableau par exemple. Il convient donc de se familiariser avec le format RDF pour pouvoir exploiter les informations disponibles.

La base de données est proposée au format sémantique et est conçue pour être exploitée sous forme de graphe.

Il est possible « d’aplatir » les données obtenues en suivant les indications suivantes.

Cependant, cette transformation de format ne sera possible et efficace qu’à condition de vouloir exploiter un nombre limité de critères de description.

A noter qu’il est également possible de télécharger des données directement au format CSV en consultant la page DATAtourisme du site Data.gouv.fr. Ces fichiers sont cependant simplifiés : tous les POI sont recensés mais le niveau de description de chaque point est limité (moins de champs de description).

Les données complètes sont disponibles au format RDF uniquement (graphe). Une représentation à plat impliquerait une importante perte d’informations et d’interopérabilité. Cependant, un export CSV des principaux critères de description a été mis en place sur le portail Data.gouv.fr. Il permet à tout utilisateur de connaitre la liste des points d’intérêt disponibles sur la plateforme DATAtourisme, ainsi que quelques critères basiques tels que leur catégorie (concert, musée, restaurant), leur géolocalisation, et le nom du producteur de la donnée. Cette liste est automatiquement mise à jour quotidiennement.

FAQ - format des données > DATAtourisme