Sciences Numériques et Technologiques

Thème 4 : Les données structurées et leur traitement

4.1 : Structure des données

I - Vocabulaire des données structurées

Exemple du carnet d'adresse

Dans un carnet d'adresse, pour chaque personne, on renseigne le prénom, le nom, la ville...

Il est possible de visualiser le carnet sous la forme d'un tableau.

Prénom Nom Ville
Jean Némare Toulouse
Anne Ammare Tour

Vocabulaire

■ Un ensemble de données que l'on peut représenter sur la forme d'un tableau s'appelle une collection.

Exemple : le carnet d'adresses.

■ Les intitulés des informations d'une collection s'appellent les descripteurs (ou les attributs).

Exemple : Prénom, Nom et ville.

■ Chaque ligne du tableau qui représente une collection s'appelle un objet (ou un enregistrement)

Exemple : Chaque personne du carnet d'adresses est un objet.

Application

On considère les données représentées ci-dessous :

Nom Code Capitale Population
Allemagne DE Berlin 83,8 M
Autriche AT Vienne 9,1 M
Belgique BE Bruxelles 11,7 M
Bulgarie BG Sofia 6,9 M
Croatie HR Zagreb 3,9 M
Chypre CY Nicosie 1,3 M
... ... ... ...
Monument Pays Ville
Chateau de Versailles FR Versailles
Colisée IT Rome
Parthénon GR Athènes
Tour Eiffel FR Paris
Musée d'Orsay FR Paris
Palais Wilanov PL Varsovie
... ... ...

1) Indiquer le nombre de collections que contiennent ces données.

2) Donner la liste des descripteurs de chaque collection.

3) Identifier un objet de chaque collection.

4) Serait-il possible de faire une seule collection à partir des données ci-dessus ?

II - Les différents formats

Généralités

Généralement, les données sont enregistrées dans des fichiers "texte", c'est-à-dire des fichiers contenant des caractères.

Rappel : le contenu d'un fichier "texte" peut être visualisé à l'aide d'un éditeur de texte comme le BlocNote ou SublimText.

Il existe trois principaux formats : le format CSV, le format JSON et le format XML.

Description des formats

Le format CSV

Dans le format CSV (Comma-separated values), les données sont enregistrées sous la forme d'une unique collection. Chaque ligne est un objet. Les valeurs des descripteurs sont séparées par des "," ou des ";". La première ligne est en général réservée aux noms des descripteurs.

Exemple :

nom,ville
Gérard,Paris
Marie,Toulouse

Le format JSON

Dans le format JSON (JavaScript Object Notation), les données sont sous forme de listes avec des étiquettes.

Le format JSON permet des structures plus complexes que la simple collection.

Exemple :

[
  {
    "nom": "Gérard",
    "ville": "Paris"
  },
  {
    "nom": "Marie",
    "ville": "Toulouse"
  }
]

Le format XML

Dans le format XML (Extensible Markup Language), les données sont organisées à l'aide de balises.

Exemple :

<objet>
  <nom>Gérard</nom>
  <ville>Paris</ville>
</objet>
<objet>
    <nom>Marie</nom>
    <ville>Toulouse</ville>
</objet>

Applications

La page suivante propose le téléchargement des données contenant la liste des départements et de leurs régions : Départements et leurs régions

1) Analyse de la page

1.a) Quels sont les trois formats de données proposés au téléchargement ?

1.b) Sous quelles conditions peut-on réutiliser ces données ?

2) Analyse des fichiers de données

Télécharger les trois fichiers proposés et les ouvrir dans un éditeur de texte comme SublimText ou le BlocNote.

2.a) Le fichier de données au format CSV utilise-t-il la virgule ou le point-virgule comme séparateur ?

2.b) Lister les descripteurs de la collection.

2.c) Les descripteurs sont-ils les mêmes dans les trois fichiers ?

2.d) Indiquer le nombre d'objets stockés.