Pour mieux saisir le Big Data



Vous l’avez surement déjà entendu, lu, dit, écrit, le « Big Data » tout le monde en parle. Mais ce terme tant employé est-il compris par tous? Le sujet de cet article est de mieux comprendre ce qui se cache derrière le phénomène de données massives.

La numérisation progressive de nos vies produit chaque jour une multitude de données qui s’accumule, circule et se transforme sur le réseau mondial du Web. Cette numérisation s’est réalisée globalement à travers 4 tendances :

  • La numérisation des informations et des biens ;
  • L’extension des réseaux sociaux ;
  • La mobilité numérique ;
  • Le caractère participatif du Web avec notamment la démocratisation des blogs, wiki et forums.

BigData

Et le phénomène n’a pas atteint son zénith. En effet, avec l’Internet des Objets, donc la ville intelligente, la e-santé, le « smart manufacturing », le numérique s’incruste dans les aspects les plus traditionnels de nos vies. Des capteurs, des robots, connectés directement à nos téléphones, tablettes et ordinateurs produisent des données en continu et décuplent le phénomène de données massives.

 

Si l’on parle tant du Big Data, c’est qu’il induit de nouveaux usages et enjeux pour les entreprises. Cette quantité gigantesque de données peut permettre d’améliorer l’expérience-client, d’augmenter l’efficacité des processus opérationnels et de créer de nouveaux modèles d’affaires.
Toutes ces promesses font rêver un bon nombre d’organisations mais les enjeux réels sont plus complexes, il s’agit de gérer le Big Data et plus particulièrement ses caractéristiques inédites.

En 2001 déjà, le cabinet Gartner énonce les 3V, grille de lecture servant de référence pour analyser le passage à l’échelle Big Data. Les 3V signifient :

  • Le Volume : la massification et automatisation des échanges de données.
  • La Variété : la multiplication des sources et des types de données.
  • La Vélocité : la nécessité de collecter et de traiter les données en temps-réel.

2 V ont été ajoutés depuis, la Valeur pour la création de valeur pour les entreprises et la Véracité pour la précision et valeur des données.

BigData

La gestion des 3V du Big Data peut alors se diviser en quatre grandes étapes.

La première est la récolte des données et rejoint les origines du phénomène et son amplification. En effet, les techniques de numérisation, le déploiement des réseaux sociaux et autres outils favorisant la participation des citoyens, la multiplication des appareils mobiles et des objets connectés introduisent des données en masse sur le Web que l’on peut récolter et ensuite stocker.

Le stockage est donc la deuxième grande étape. Les bases relationnelles classiques et les data warehouse ne sont plus en mesure de supporter la croissance exponentielle des données. De plus, elles sont devenues très variées (non structurées, structurées, vidéos, textes, etc.). Aujourd’hui, de plus en plus d’organisations se tournent vers la solution du Cloud computing qui donne de la souplesse et de la flexibilité. Il faut aussi noter un autre enjeu pour le stockage, qui est d’avoir un réseau assez performant pour transporter ces masses de données en simultanée.

Les troisième et quatrième étapes sont respectivement le traitement et l’analyse des données. Le traitement, grâce par exemple à Hadoop et Mapreduce, permet de transformer les données stockées en des données exploitables que l’on pourra analyser a posteriori à l’aide d’algorithmes, de technologies sémantiques ou de matrices.

 

Le Big Data pour améliorer les performances des entreprises ?

Gilles Babinet montre dans son dernier livre « Big Data, penser l’homme et le monde autrement » qu’il est possible de développer l’entreprise grâce aux nouveaux leviers issus des données de masse. C’est d’ailleurs la préoccupation majeure des managers et dirigeants (74%) des entreprises européennes en 2015.
Les manager et chefs d’entreprise voient dans le Big Data deux objectifs majeurs, la facilitation de leurs prises de décisions et le gain en compétitivité. De plus, il est prouvé par une récente étude de McKinsey que la maîtrise des données aura un impact sur l’aide que l’informatique pourra apporter aux métiers pour trouver de nouveaux axes de compétitivité.

Par exemple : Les entreprises industrielles vont chercher à améliorer la sécurité des produits et services qu’elle propose. En optimisant la supply chain de façon à collecter et analyser les données des machines, il sera alors possible d’effectuer des maintenances prédicatives et ainsi éviter les pannes.
Pour les enseignes de grande distribution, les enjeux identifiés sont l’amélioration de l’expérience client et l’augmentation du taux de fidélisation.

Face aux enjeux multiples du Big Data, les entreprises n’ont pas atteint le même stade de maturité et ne sont donc pas à mêmes de saisir toutes les opportunités qui leur sont offertes. L’eldorado promis peut ne rester qu’illusoire si les entreprises ne font pas l’effort d’amélioration de leurs processus Big Data.

Datacenter

Vocabulaire rencontré dans l’univers du BigData :

Les 3V (Volume, Vitesse et Variété) sont des critères de définition d’une plate-forme Big Data. 2 V ont été ajoutés, la Valeur pour la création de valeur pour les entreprises et la Véracité pour la précision et valeur des données.

Les Algorithmes permettent d’analyser les données grâce à des modèles statistiques. Ils peuvent prendre plusieurs formes : de Boosting (Améliorer la précision d’algorithmes imprécis), génétiques (claqués sur les principes d’évolution d’une population, solution de calculs successifs pour arriver à un optimum), …

Clickstream/flux de clics est généré par tous les clics faits par les visiteurs de sites web.

Le Data Cleansing consiste à littéralement nettoyer les données. Les rendre cohérentes et sans erreurs (suppression des erreurs de saisies par exemple), pour atteindre un niveau de qualité nécessaire au traitement des données par les différents algorithmes.

Le Data Scientist va faire le lien entre le domaine statistique et les enjeux business et analyses liées à l’entreprise.

Le Data Analyst est une personne maitrisant les statistiques et les outils majeurs du Big Data, il va coder des algorithmes sur la plate-forme analytique.

L’approche “Data Lake ”consiste à initier un cluster Hadoop (framework Java libre destiné à la création d’applications distribuées et échelonnables. Cela permet un travail de ces applications avec des pétaoctets de données) où toutes les données brutes captées par l’entreprise vont se réunir.

Le Machine learning consiste au développement d’algorithmes qui apprennent un phénomène à partir des données. Il s’agit d’un apprentissage automatique à la différence du Data Mining.

Le Data Mining est le fait d’extraire des connaissances à partir de données de manière automatique ou semi-automatique.

L’OpenData/Données ouvertes est le fait de diffuser de manière structurée une donnée (d’origine publique ou privée) à tous, en garantissant son libre accès et sa réutilisation universelle.

R est un langage statistique qui tend à devenir le langage référence du Big Data. Soutenu par un grand nombre d’universitaires, ce projet open source a été racheté par Microsoft en 2015.

 

Pour aller plus loin sur le sujet, vous pouvez consulter les articles suivants :

Raphaël Chatelain et Colin Lesprit.