open search menuopen langage menutoggle menu
Actualités t3://page?uid=116

Le big data est mort, vive le big data !

Trop vague, le terme « big data » est appelé à disparaître au profit des différentes technologies qu'il recouvre. En revanche, les bénéfices apportés par le traitement de grands volumes de données ne sont pas prêts d'être remis en cause.

Nicolas Doussinet, responsable Big Data, nous explique pourquoi.

Retrouvez l'intégralité de la tribune dans L'Usine Digitale en cliquant ici

C'est la chronique d'une mort annoncée. Le terme « big data » est appelé à disparaître d'ici quelques années. Concept fourre-tout, son périmètre n'a jamais été clairement défini. Derrière ce « buzzword », le monde de l'informatique range un ensemble de technologies comme Hadoop, Spark, Kafka ou les bases de données NoSQL.

Auprès du grand public, la confusion a été savamment entretenue entre le big data et d'autres termes qui lui sont associés comme la data science, le machine learning ou l'intelligence artificielle. Des éditeurs et des fournisseurs de services ont participé à cette confusion en apposant la mention big data sur toutes leurs offres sans avoir forcément changé quoi que ce soit à ces dernières. Juste pour surfer sur la vague.

Une vague qui s'est brisée en 2015 selon Gartner. C'est cette année-là que le cabinet d'études a fait disparaître le terme de big data de sa célèbre courbe d'adoption des technologies (Hype Circle) pour le remplacer par plusieurs vocables plus précis. Par exemple, dans les offres d'emplois, on ne retrouve plus que rarement le libellé « ingénieur développement big data ». Elles affichent plutôt le langage recherché – Scala, R, Python… – ou l'expertise sur une plateforme donnée – Hadoop, Elasticsearch, Cassandra…

Une brève histoire du big data

Pour comprendre ce glissement sémantique, il faut faire un bref rappel historique. On peut dater l'acte de naissance du big data en 2001 avec l'invention de la règle des 3V (Volume, Vitesse et Variété). A l'époque, l'expression traduisait une rupture dans le volume des données à traiter. Jusqu'à la fin des années 90, les quantités de données restaient limitées. Le système de gestion de base de données relationnelles (SGBDR) remplissait son office et était devenu la référence pour le stockage de données, sans avoir été remis en cause durant des années car il répondait à 90 % des besoins. Et quand les entreprises s'échangeaient des données entre elles, elles le faisaient en vase clos dans un format connu et maîtrisé.

Puis on a assisté à une explosion du volume de données avec l'essor de l'e-commerce, des réseaux sociaux, des terminaux mobiles et, plus récemment, de l'internet des objets (IoT). Face à cette avalanche de data, les modèles techniques existants ont montré leurs limites. La base de données parfaite n'existe plus. En fonction du souhait de privilégier la volumétrie, la vitesse ou les capacités de requêtage, on choisira une solution plutôt qu'une autre une ou bien une combinaison d'outils : la « polyglot persistence » est devenue la nouvelle norme.

Pour leurs propres besoins, les GAFAM ont dû créer des outils pour stocker et traiter à la volée des données à la fois nombreuses et versatiles, leur structuration changeant avec le temps. Facebook est ainsi à l'origine de Cassandra avant de se tourner vers HBase (NoSQL), Google de BigTable et GFS (ancêtre d'HDFS) et plus récemment de TensorFlow (machine learning). Les géants du web ont ensuite versé ces projets en open source, externalisant en quelque sorte leur R&D. Car à leurs yeux, l'or ce sont les données elles-mêmes, pas les technologies. Par leur dynamisme, les communautés du libre assurent la pérennité et l'amélioration constante de ces technologies, qui sont aujourd'hui adoptées par les entreprises traditionnelles.

Du big data à tous les étages

Les principes apportés par le big data – la règle des 3V à laquelle on peut rajouter la notion de scalabilité – se retrouvent aujourd'hui dans de nombreuses briques du système d'information. La business intelligence (BI), le CRM, la gestion du backend d'une application mobile ou d'un site web intègrent de plus en plus des technologies dites de big data.

Et ce n'est qu'un début. La génération de données ne peut qu'augmenter de façon exponentielle, ne serait-ce que par la multiplication des objets connectés. Le big data a déjà révolutionné beaucoup de métiers. Dans la banque-finance, il permet de produire de nouveaux indicateurs (par exemple dans les prévisions boursières) et de lutter contre la fraude. Dans l'industrie, le big data associé à l'IoT assure la maintenance prédictive des équipements. Dans le transport, il permet d'optimiser la consommation d'énergie. Dans le marketing et la relation client, il permet d'avoir une connaissance plus poussée et une relation personnalisée. Dans le monde de la santé, il avance la promesse d'une médecine individualisée. Ce n'est donc en vérité pas la fin du big data… il n'en est même qu'à ses débuts.

6 juillet 2017