Fédération des minerais, minéraux industriels et métaux non ferreux
CONNEXION ADHÉRENTS

Recherche

>e-BIP n° 30

Ebip 30                                                                              Téléchargez notre e-BIP N° 30

>ACTUALITÉS

Note de Lecture sur "BIG DATA, la révolution des données est en marche"

Le 10/03/2014

« BIG DATA, la révolution des données est en marche » de Viktor Mayer-Schönberger et Kenneth Cukier, traduit par Hayet Dhifhallah


Ce livre, écrit par deux experts en la matière, vient à point nommé nous expliquer comment Google, d’Amazon, Facebook, etc., collectent et traitent des milliards de milliards de milliards de données et les transforment en profits. Nous sommes concernés à titre personnel et à titre professionnel. Les Big data commencent à révolutionner l’univers économique, bien sûr, mais aussi social, juridique, culturel.

Le livre se lit agréablement et contient nombre d’exemples concrets qui facilitent la compréhension. Comme beaucoup de livres et de documentaires américains, il est parfois un peu répétitif, mais la pédagogie n’est-elle pas l’art de la répétition ? Les auteurs poursuivent un double objectif : nous faire comprendre le phénomène Big data et les opportunités économiques qu’il contient, et réfléchir aux dérives potentielles qu’il recèle et donc aux moyens de les encadrer.

Les big data

Mais qu’appelle-t-on Big data, que l’on pourrait aussi bien appeler superdonnées ? Les auteurs donnent la définition suivante :
« Les big data se réfèrent à ce qui peut être accompli à grande échelle et ne peut pas l’être à plus petite, en matière d’extraction de nouvelles connaissances ou de nouvelles formes de valeur…
Son plus grand impact ? Quand la société va se rendre compte qu’elle doit mettre un bémol à son obsession de la causalité et se fonder sur de simples corrélations : il ne s’agit plus de connaître le pourquoi, mais le quoi.» (p. 15).

Plusieurs exemples désormais classiques illustreront ces nouvelles tendances. Ainsi, Google a mis au point une technique d’extraction des interrogations sur les symptômes de la grippe qui permet de connaître la propagation de l’épidémie avant tous les organismes officiels tels que le CDC (Center for disease contrôle). Le traitement de milliards de données incertaines et l’essai de millions de modèles ont permis de faire émerger un outil pertinent. Nous ne sommes pas dans le développement d’un nième modèle épidémiologique de propagation de la grippe, mais dans l’utilisation massive de données et de corrélations qui donne un résultat concret. On ne sait ni pourquoi ni comment la grippe se propage, mais on sait dire en temps réel où elle sévit.
La grande révolution n’est pas dans les calculs - il y a longtemps que l’on sait calculer des corrélations - mais dans les données elles-mêmes et dans la façon de les utiliser.
Les big data sont d’abord une affaire de prédiction. Cela peut concerner la grippe, mais aussi les tarifs des compagnies aériennes, le risque d’incendie dans les immeubles de New York, le positionnement des objets dans les supermarchés, les recommandations d’Amazon, de Netflix, et des autres pour les achats, etc.
Les données sur notre géolocalisation, données dont la fourniture est obligatoire si l’on veut utiliser certains logiciels, sont une mine d’or pour leurs heureux possesseurs et tout cela se vend à notre insu. Of course.

Chaque ensemble de données est susceptible de recéler une valeur cachée, intrinsèque, non encore mise à jour.

Les auteurs insistent beaucoup sur le renoncement à la causalité et sur le basculement de la causalité à la corrélation. Ils prétendent aussi que les big data remettent en cause les techniques classiques d’échantillonnage, ce qu’ils résument par la formule limpide : N = tous. Nombres d’enquêtes sur questionnaires pourront (pourraient ?) être remplacées par d’autres techniques d’approche, fondées sur les big data.
Il est intéressant de noter que les données utilisées sont souvent imprécises, incomplètes, mal structurées, mais que les techniques de traitement parviennent à en extraite des données pertinentes. Le désordre, le flou et l’ambiguïté, font partie de l’ordre des choses. Le traitement des données s‘accompagne inéluctablement de la création de modèles :
« Des modèles simples et une grande quantité de données surpassent des modèles plus élaborés fondés sur une quantité moindre de données. » (Peter Norvig, p. 53).

Ainsi, la survie des prématurés peut être améliorée par la surveillance continue et le traitement ad ’hoc de milliers de données qui permettent de gagner 24 heures sur la détection de pathologies graves. On n’est pas dans le pourquoi dans le quoi. Le rôle des big data est donc de fournir des corrélations capables de guider les experts vers les causes probables.
Il n’y a là rien de très nouveau : toute l’épidémiologie est fondée sur des corrélations et le rôle de l’expert est d’essayer de déterminer ce qui est causal et ce qui ne l’est pas.

L’existence de masses de données phénoménales amène naturellement la question de leur conservation : combien de temps les conserver, sont-elles réexploitable en fonction de l’évolution des idées et des outils, quel est leur coût, quel est leur prix, etc. ?

Les risques et le contrôle

Les auteurs consacrent deux chapitres aux risques et au contrôle, esquissant des solutions et prévoyant des garde-fous.
Bien évidemment, le développement de tels outils et de telles pratiques s’accompagne de risques sur la vie privée, sur la justice, sur la gestion de la santé, sur les pratiques des compagnies d’assurances, etc. Georges Orwell et son livre « 1984 » ne sont pas loin.
Nous savons bien qu’il est quasiment impossible de lire les longues clauses d’utilisation et de confidentialité, souvent en anglais, histoire de faciliter la compréhension… Aujourd’hui notre vie privée n’est plus protégée. Chacun d’entre nous a un profil formé de la somme de ses traces, caché dans les bases de données et nul ne sait à qui et à quoi il servira demain, et à quels dérapages il donnera lieu.


Commentaires

Ce livre, très clair, donne beaucoup d’exemples concrets et pose les bonnes questions, ce qui permet d’avoir une vue d’ensemble du sujet.
A ce stade, il faut honnêtement reconnaître qu’un humble citoyen ne voit pas très bien comment cette machine pourrait s’arrêter ni comment les Etats pourraient contrôler ce que les auteurs appellent « les barons » et dont le cynisme est sans limites.
Nous sommes beaucoup plus réservé que les auteurs sur le danger intellectuel que présente l’utilisation massive de corrélations : si dans le domaine commercial elle ne gêne personne, dans le domaine scientifique l’effacement de la causalité serait une catastrophe.

Ce livre ouvre des sujets de réflexion passionnants et, pour conclure, il serait très intéressant de savoir si les adhérents de l’A3M utilisent ou sont tentés d’utiliser ces techniques et dans quel but.


PS : On notera qu’il existe de nombreuses formations et colloques sur les Big data.
 

Fiche de lecture rédigée par Bernard Pitié : pitie.bernard@wanadoo.fr