La Data Science promet monts et merveilles. Littéralement science de la donnée, cette discipline est poussée sur le devant de la scène par des progrès spectaculaires en matière de traitement, stockage ou analyse des données numériques. Sauf que pour beaucoup d’entre nous, le terme reste assez mystérieux et regroupe des réalités parfois difficiles à cerner. A l’heure des Big Data, machine learning, intelligence augmentée et autres buzz words, il est temps de clarifier cette ébullition autour de la « data ».
Pour celles et ceux qui souhaitent acquérir des compétences concrètes sur le sujet, nous proposons une formation de 5 jours pour débuter en science des données :
Demandez des informations OU Réservez votre formation
Les recherches Google sur le terme « data science » ces 10 dernières années
Il n’existe pas de définition générale et communément acceptée de la Data Science. Des personnes d’horizons différents fourniront des définitions différentes, en fonction du contexte dans lequel elles évoluent.
Avant de nous intéresser aux utilisations concrètes de la science des données, au métier très en vogue de data scientist ou encore à la convergence révolutionnaire entre données massives et intelligence artificielle, prenons les choses par le bon bout et commençons par répondre à la question : qu’est-ce qu’une donnée ?
La donnée est partout
Les données existent sous diverses formes : un nombre, un texte écrit sur une feuille de papier ou stocké électroniquement, une photo, un tweet, etc, etc. Au sens le plus basique du terme, la donnée est une collection de faits bruts, de chiffres, de bits même (1 ou 0, vrai ou faux).
C’est le résultat direct d’une mesure ou d’une observation, une valeur assignée à une chose.
Prenez par exemple les tomates sur la photo ci-dessous.
Que peut-on en dire ? Ce sont des tomates. Premier élément, les tomates se mangent et font donc partie de la catégorie des aliments. Nous pouvons déjà placer les tomates au sein d’une taxonomie.
Mais ce n’est pas tout. Nous avons une couleur : « rouges », une condition « fraîches ». Elles ont toutes une taille, il y en a une certaine quantité et elles ont probablement une valeur marchande. Et ainsi de suite.
Les données caractérisent donc même le plus élémentaire des objets. Mais aussi les individus (et c’est ce qui intéresse tout particulièrement les géants du web Google, Amazon, Facebook et consorts). Vous-même, vous avez un nom, une date de naissance, un poids, une taille, une nationalité, une adresse, mais aussi des centres d’intérêts, des habitudes de consommation… Toutes ces choses sont des données.
Pour en donner une première définition, la Data Science permet l’exploitation de ces données. Le but étant de créer une certaine valeur, à partir d’éléments bruts et recueillis sous des formes parfois très hétérogènes.
Donnée ne veut pas dire information, ni connaissance…
Une donnée en tant que telle ne signifie en effet pas grand-chose. En dehors de son contexte, elle n’a quasiment aucune valeur, que ce soit pour un humain ou une machine. Tout son intérêt réside donc dans l’interprétation qui en sera faite, dans le sens qui lui sera attribué. L’objectif est de transformer la donnée en information, puis en connaissance.
La collecte d’une certaine quantité de données, et leur structuration rendent déjà les choses plus intéressantes. Revenons à nos tomates, dont est issu le jeu de données suivant :
Une succession de chiffres et caractères sans signification particulière. Pour devenir informations, les données doivent être extraites, organisées et parfois analysées. Ainsi, après structuration et une certaine mise en forme, nous pouvons conférer un sens à notre jeu de données :
Couleur | Rouges |
Condition | Fraîches |
Diamètre | 11 cm |
Quantité | 10 unités |
Poids | 1.3 kg |
Prix (au kg) | 2.9 € |
En dehors d’un quelconque contexte toutefois, même réorganisées, la valeur de ces informations reste insignifiante. Il convient alors de les insérer dans un univers logique.
Prenons le prix des tomates. Savoir qu’un kilo de tomates nous coûtera 2€ et 90 centimes n’est pertinent que si l’on compare ce prix à d’autres éléments. Le prix moyen par exemple, qui est de 2€30 en France. Ces tomates sont donc relativement chères. Nous avons désormais une certaine connaissance les concernant.
La connaissance s’obtient ainsi lorsque l’information est extraite, traitée, analysée et comprise. Et c’est là tout l’intérêt de la Data Science.
Pour illustrer ce procédé, Clive Humby, mathématicien britannique et architecte chez Tesco déclarait en 2006 :
« La data est le nouveau pétrole (« data is the new oil »). Les données sont précieuses, mais sans raffinage elles ne peuvent pas vraiment être utilisées. Le pétrole doit être transformé en gaz, plastique, produits chimiques, etc pour créer de la valeur et profiter à une activité rentable. De même, les données doivent être décomposées et analysées pour créer de la valeur »
Si le parallèle avec l’or noir a ses limites (la donnée possède des propriétés intrinsèques et des champs d’application bien plus vastes), il met bien en exergue le processus de transformation que nous évoquions, ainsi que l’importance de la donnée dans l’économie d’aujourd’hui.
Nous verrons en effet dans un prochain article que les progrès technologiques en matière de stockage, traitement ou analyse de la donnée, combinés au phénomène bien connu du Big Data ont induit un changement de paradigme. Les possibilités de création de valeur à partir des données se sont vues décuplées, et la data a acquis un nouveau statut au sein des organisations.