L’expérience digitale est devenue omniprésente. Face à de nombreuses applications de tracking introduites par les Etats notamment dans le contexte de l’épidémie de la Covid-19, les critiques de la société de plus en plus « orwellienne » sont nombreuses. Le mythe de Big Brother étatique est tenace, ce qui est d’autant plus curieux que le roman de Georges Orwell « 1984 » (écrit en 1948) est largement inspiré par le contexte de la guerre froide, le monde contemporain à l’écrivain. Alors, peut-on parler de Big Brother aujourd’hui ? Le parcours digital privé serait-il le lieu de rencontre entre un certain Big Brother et le Big Data ?

Le Big Brother contemporain est devenu une multitude de Little Brothers, cette métaphore concerne désormais le monde d’entreprise. Pour certains chercheurs « Le procès » de Kafka reflèterait mieux la vulnérabilité et l’impuissance des individus face à l’impossibilité d’influencer la manière dont leurs informations personnelles sont collectées et utilisées.

Le terme Big Data s’applique, quant à lui, aux données de faible densité, structurées ou non structurées. Le Big Data se caractérise par les 3V : Volume (les bases de données Facebook sont amenées à stoker plus de 500 téraoctets de données supplémentaires tous les jours), Variété (nombreux types de données disponibles) et Vitesse (croissance exponentielle, capacité d’atteindre un volume important rapidement). On parle également de quatrième et cinquième V, ceux de Variabilité et de Véracité (ce dernier est moins pertinent pour le parcours client car dans ce cadre elles proviennent du client ou de la marque). Les grands volumes de données ne peuvent pas être traités de manière traditionnelle, alors leur exploitation est étroitement liée à l’apprentissage automatique et à l’intelligence artificielle .... et aux problèmes d’éthique.

Le licenciement très médiatisé de Timnit Gebru, récemment codirectrice de l’équipe éthique de l’intelligence artificielle (IA) à Google, a placé les problèmes d’éthique liés au Big Data et à l’IA sous les feux de projecteurs. Au moment de son licenciement, cette chercheuse travaillait avec plusieurs collègues sur un article dans lequel les faiblesses des algorithmes de traitement automatique de langage naturel fondées sur les grands modèles statistiques étaient mises en avant : • Le coût écologique (l’entraînement de certains modèles produirait 5 fois plus de dioxyde de carbone qu’une voiture américaine en une année) ;

• L’incapacité des grand modèles statistiques de prendre en compte le changement sociétal. En effet, les efforts des mouvements tels que MeToo ou Black Lives Matter pour établir un nouveau vocabulaire anti-sexiste et anti-raciste sont « noyés » dans les volumes des données textuelles exploitées par les algorithmes. Par ailleurs, les biais liés à la présence de telle ou telle langue ou dialecte sur la grande toile sont reflétés dans les données textuelles et perpétrées par les modèles statistiques <br>

Certains modèles ne cherchent pas à comprendre le langage mais à le manipuler, les moyens investis dans la recherche peuvent ainsi être mal utilisés <br> 

L’illusion de sens car les modèles statistiques sont capables de mimer le langage sans réelle compréhension de celui-ci. Quelques exemples sans rapport avec l’article pour illustrer ce propos : l’étudiant américain qui a utilisé GPT-3 (le modèle de langage de Open AI) pour ce qui peut être considéré comme un test de Turing ... un blog entièrement généré par une IA qui a finalement été « démasqué »... <br>


Dans quelle mesure le parcours digital est générateur du Big Data ? Selon les cas, l’ensemble des parcours client peut impliquer de grands volumes de données. Toutefois, les données du parcours omnicanal peuvent se trouver réparties entre plusieurs bases conformément à la possible variété des points de contact qui jalonnent ce parcours. Une stratégie omnicanale apparaît ainsi comme un moyen plutôt sûr d’éviter les « dangers » des Little Brothers, à condition que l’entreprise-architecte de celui-ci analyse et préserve les données des clients. Ainsi, les données de la totalité du parcours ne sont jamais accessibles à un acteur tiers. MeetDeal analyse l’ensemble des données générées par le parcours client (datasets) qui sont « questionnées » conformément à des feuilles de route (datasheet) dans le respect des normes RGPD et ISO-27001. Ainsi, nous pensons que l’effort de stratégie multicanal couplé à une analyse des données est la façon adéquate de protéger le client et de lui redonner le pouvoir.


Article co-écrit avec Nadia Bebeshina, Docteur en Informatique, ancien chercheur postdoctoral dans le cadre du projet ANR TALAD (Analyse et traitement automatique de discours) au Laboratoire Praxiling, Nadia Bebeshina est aujourd'hui chef de projet et chercheur chez MeetDeal.