Les études scientifiques sur la prédiction de la personnalité : Approfondissement des travaux de Michal Kosinski.
Michal Kosinski, pionnier de la psychométrie computationnelle, a consacré ses recherches à démontrer comment les traces numériques laissées par les utilisateurs en ligne permettent de prédire avec une précision remarquable leurs traits de personnalité, comportements et décisions. Ses travaux, principalement basés sur les réseaux sociaux, combinent des approches innovantes en psychologie et en intelligence artificielle pour analyser les données numériques et en extraire des insights psychologiques profonds.
Ses recherches illustrent non seulement la puissance des algorithmes dans la prédiction de la personnalité, mais aussi les enjeux éthiques et sociétaux qu’elles soulèvent.
On vous explique.

1. Les bases méthodologiques des recherches de Kosinski
Les travaux de Kosinski s’appuient sur le modèle des Big Five, qui reste le modèle dominant en psychologie pour l’analyse de la personnalité. Ce modèle décompose la personnalité en cinq dimensions fondamentales (ouverture à l’expérience, conscienciosité, extraversion, agréabilité et neuroticisme). Ces traits sont largement validés scientifiquement et relativement stables au fil du temps.
Pour mesurer ces traits à partir de données numériques, Kosinski a comparé les « empreintes digitales » des utilisateurs à des questionnaires psychométriques standardisés. Cela a permis d’établir des corrélations entre comportements numériques (par exemple, les « likes » sur Facebook) et les scores des Big Five, grâce à des algorithmes de machine learning, tels que les régressions LASSO ou les réseaux neuronaux .
Ces modèles sont ensuite validés à l’aide de techniques rigoureuses comme la validation croisée, garantissant que les prédictions soient généralisables à d’autres échantillons.
2. Étude sur les « likes » Facebook : Une expérience pionnière
Dans une étude fondatrice menée en 2013, Kosinski, Stillwell et Graepel ont analysé les « likes » Facebook de 58 000 utilisateurs. Ces « likes » sont des marques d’intérêt laissées sur des publications, pages ou contenus. Leur objectif était de démontrer qu’à partir de ces interactions numériques, il était possible de prédire avec précision les traits de personnalité des utilisateurs.
Les chercheurs ont comparé les données de « likes » avec les scores des utilisateurs obtenus via des questionnaires psychométriques sur les Big Five. Ils ont ensuite utilisé des algorithmes pour identifier les liens entre les préférences numériques et les traits psychologiques.
Les principaux résultats ont montré une grande précision des prédictions. Avec seulement 10 « likes », l’algorithme pouvait prédire la personnalité aussi bien qu’un collègue. Avec 70 « likes », il surpassait les jugements d’amis ou de colocataires. À partir de 300 « likes », l’algorithme rivalisait avec les évaluations des conjoints.
Le volume des données traitées a également permis d’établir des corrélations intéressantes : les individus appréciant des pages comme Salvador Dalí ou TED Talks avaient tendance à obtenir de hauts scores en ouverture à l’expérience. Ceux qui « aimaient » des marques sportives ou des contenus festifs étaient souvent extravertis.
Cette étude a marqué une étape majeure en montrant que des données numériques apparemment banales pouvaient révéler des informations psychologiques complexes. Elle a également établi un précédent pour l’analyse psychométrique automatisée à grande échelle.

3. Étude comparative : Jugements humains vs jugements informatiques
Dans une autre étude menée en 2015, Kosinski et ses collègues ont comparé les jugements de personnalité réalisés par des humains (amis proches, collègues) à ceux effectués par des algorithmes. L’objectif était de déterminer si les machines pouvaient surpasser les humains dans cette tâche complexe.
Les chercheurs ont utilisé un échantillon de 86 220 participants ayant rempli un questionnaire basé sur le modèle des Big Five. Ils ont comparé les prédictions basées sur les « likes » Facebook (réalisées par des algorithmes) et les jugements effectués par les amis ou connaissances des participants, à partir d’un questionnaire abrégé.
Les chercheurs ont ainsi montré que les jugements basés sur les algorithmes étaient plus précis (coefficient de corrélation r = 0.56) que ceux réalisés par les amis des participants (r = 0.49).
Les prédictions informatiques montraient une meilleure validité externe, c’est-à-dire qu’elles étaient plus cohérentes avec les comportements réels des participants, comme leurs choix politiques ou leurs habitudes de consommation. Les outils numériques semblent pouvoir utiliser des données plus nombreuses et moins biaisées (par des émotions le contexte par exemple) pour établir ces corrélations et prédire des comportements.
4. Les données issues du vocabulaire employé.
L’étude « Personality, Gender, and Age in the Language of Social Media: The Open-Vocabulary Approach » explore les liens entre l’utilisation du langage sur les réseaux sociaux, comme Facebook, et des caractéristiques personnelles telles que la personnalité, le genre et l’âge. À partir de l’analyse de 700 millions de mots issus des statuts Facebook de 75 000 participants, les chercheurs ont utilisé une méthode innovante, l’analyse du « vocabulaire ouvert », pour comprendre comment les mots et expressions reflètent les traits psychologiques et démographiques des individus.
L’analyse repose encore une fois sur le modèle des Big Five, qui divise la personnalité en cinq dimensions principales : extraversion, agréabilité, conscienciosité, névrosisme et ouverture. Contrairement aux approches classiques utilisant des lexiques prédéfinis comme LIWC (Linguistic Inquiry and Word Count), cette méthode permet d’extraire directement les mots, phrases et thèmes pertinents des données collectées. Cette approche, appelée « Differential Language Analysis » (DLA), se distingue par sa capacité à identifier des corrélations inattendues et à révéler des comportements jusque-là inexplorés.
Les résultats montrent des différences notables dans l’utilisation du langage selon le genre. Les femmes auraient ainsi tendance à utiliser davantage de mots émotionnels et de pronoms à la première personne, ainsi que des expressions sociales comme « love you ». Les hommes, en revanche, privilégieraient des mots liés à des objets matériels, des jurons et des possessifs tels que « my » dans des expressions comme « my wife ». Ces résultats confirment en partie des observations antérieures, mais la taille importante de l’échantillon permet de proposer des analyses plus approfondies et nuancées.
Avec l’âge, l’évolution du langage reflète les préoccupations et les étapes de vie des individus. Les jeunes adolescents (13-18 ans) utilisent souvent des émoticônes, du jargon internet ou des expressions liées à la scolarité. Les jeunes adultes (19-22 ans) parlent davantage d’université et de sorties festives, tandis que les 23-29 ans se concentrent sur le travail et la carrière. Au-delà de 30 ans, les sujets liés à la famille et aux relations personnelles deviennent prédominants. Ces variations témoignent des priorités et des contextes sociaux propres à chaque tranche d’âge. Le niveau d’orthographe et la ponctuation sont également des indicateurs: vous mettez des points à la fin de vos phrases ? Vous avez probablement plus de 35 ans. Vous utilisez des points virgules ? Vous êtes retraités ou proche de l’être…
Chaque trait de personnalité présente également des associations distinctes avec le langage utilisé. Par exemple, les extravertis mentionnent fréquemment des activités sociales et des termes liés à la fête, comme « party » ou « boys », tandis que les introvertis privilégient des mots relatifs aux loisirs solitaires, tels que « computer » ou « reading ». Les individus névrotiques utilisent davantage d’expressions négatives comme « hate » ou « sick of », alors que les personnes émotionnellement stables évoquent des activités et événements positifs, tels que « vacation » ou « team ». Enfin, les personnes ouvertes se distinguent par des références à l’art, à la musique et à l’imaginaire, avec des termes comme « dream » ou « universe ».
Pour illustrer ces résultats, les chercheurs ont utilisé des nuages de mots, où la taille des mots reflète leur corrélation avec les caractéristiques étudiées. Ces visualisations mettent en évidence des tendances claires tout en ouvrant la voie à de nouvelles hypothèses. Par exemple, les introvertis montrent un intérêt marqué pour les médias japonais tels que « anime » ou « manga », tandis que les personnes moins ouvertes à de nouvelles expériences préfèrent les abréviations dans leur langage, comme « 2day » ou « ur ».
L’approche du « vocabulaire ouvert » offre de nombreux avantages par rapport aux méthodes traditionnelles. Elle permet une plus grande flexibilité face à l’évolution rapide du langage sur les réseaux sociaux, tout en identifiant des catégories émergentes de mots ou de thèmes qui n’auraient pas été anticipées par des lexiques prédéfinis. De plus, l’analyse est adaptée aux grands ensembles de données, ce qui renforce la robustesse des résultats et permet une exploration approfondie de comportements linguistiques complexes.
Ces travaux ouvrent des perspectives dans divers domaines, comme la personnalisation des contenus, l’étude des tendances psychologiques ou encore le développement de modèles prédictifs. Cependant, ils soulignent également les limites liées au contexte : les résultats observés sur Facebook pourraient ne pas être généralisables à d’autres plateformes ou populations. Néanmoins, l’ampleur de l’échantillon et la richesse des données permettent de contourner certains biais, rendant cette méthode précieuse pour étudier les dynamiques psychologiques à grande échelle.

5. Étude sur l’analyse faciale et la personnalité
Dans une étude ultérieure, Kosinski et son équipe ont exploré un autre type de données numériques : les images faciales. À l’aide de réseaux neuronaux convolutifs (CNN), ils ont démontré qu’il était possible de déduire des traits de personnalité à partir de photographies.
Les chercheurs ont utilisé un large ensemble de photos de visage, combinées avec des auto-évaluations des Big Five. Les algorithmes ont été entraînés pour détecter des caractéristiques subtiles dans les expressions faciales et les utiliser comme indices psychologiques.
Les résultats ont montré que les algorithmes ont montré une précision significative pour prédire certains traits, notamment l’extraversion et l’agréabilité.
L’étude a également permis l’identification de certains biais potentiels de cette méthode : les traits prédits dépendaient parfois des expressions faciales capturées au moment précis de la photo.
Bien que cette approche offre des possibilités fascinantes, elle soulève des préoccupations concernant la vie privée. Les données faciales, facilement accessibles sur les réseaux sociaux, pourraient être exploitées sans le consentement explicite des utilisateurs.
Nous vous invitons à lire l’article que nous y avons consacré.
5. Applications marketing des travaux de Kosinski
Michal Kosinski, en collaboration avec Sandra Matz, a réalisé une expérience en 2017 pour démontrer comment les données psychologiques issues des comportements numériques peuvent être utilisées pour personnaliser des campagnes publicitaires. Cette étude a marqué une avancée significative dans l’application des techniques de ciblage psychologique au marketing de masse.
Le point de départ de l’étude est le constat que les traits de personnalité influencent fortement les comportements d’achat et les réponses aux messages publicitaires. Cependant, jusqu’à cette recherche, peu d’études avaient démontré de manière empirique comment adapter des publicités en fonction de ces traits pouvait augmenter leur efficacité.
L’objectif principal était donc de répondre à deux questions fondamentales : premièrement, les publicités adaptées aux traits de personnalité des individus sont-elles plus efficaces que les campagnes génériques? Deuxièmement, comment cette personnalisation affecte-t-elle les comportements, notamment en termes de clics et d’achats ?
Les chercheurs ont utilisé des données issues de profils numériques, notamment des interactions en ligne, pour prédire les traits de personnalité des participants. Ici aussi, le modèle des Big Five a servi de cadre théorique pour cette analyse, en se concentrant particulièrement sur l’extraversion (la tendance à être sociable, énergique et assertif…) et l’ouverture à l’expérience (la curiosité intellectuelle, imagination et appétit pour la nouveauté…).
Une série de publicités pour des produits spécifiques a été conçue pour correspondre à ces traits de personnalité. Par exemple :
– Pour les extravertis : Les publicités utilisaient des couleurs vives, des images dynamiques et des slogans mettant en avant des expériences sociales (par exemple, « Faites la fête avec ces haut-parleurs ultra-puissants ! »).
– Pour les introvertis : Les publicités étaient plus calmes et introspectives, mettant en avant des bénéfices personnels et des environnements apaisants (par exemple, « Appréciez votre musique préférée en toute tranquillité »).
– Pour les individus ouverts à l’expérience : Les campagnes présentaient des produits innovants et créatifs, avec des messages valorisant l’originalité et la découverte.

L’efficacité des publicités a été mesurée à travers deux indicateurs principaux : les taux de clics (CTR, Click-Through Rate), c’est-à-dire le nombre de personnes qui ont cliqué sur la publicité, et les taux de conversion (le nombre de personnes ayant effectué un achat après avoir cliqué).
Ces résultats ont été comparés avec ceux de publicités génériques, non personnalisées, diffusées au même public.
Les publicités adaptées aux traits psychologiques des individus ont généré des taux de clics supérieurs à ceux des campagnes génériques.
Pour les extravertis, les publicités dynamiques ont obtenu environ 40 % de clics en plus. Les introvertis ont quant à eux cliqué 30 % de plus sur les publicités calmes et introspectives, prouvant que le style du message joue un rôle clé dans l’engagement.
Les publicités personnalisées ont également conduit à une augmentation significative des ventes: les campagnes ciblant les extravertis ont généré 50 % de conversions supplémentaires, en grande partie parce que le message résonnait avec leur personnalité. Les introvertis, bien que plus réservés dans leurs comportements en ligne, ont également montré une probabilité accrue d’achat lorsqu’ils étaient exposés à des messages qui correspondaient à leur tempérament.
L’un des enseignements majeurs de cette étude est que l’alignement entre le message publicitaire et la personnalité de l’audience est un levier d’influence particulièrement puissant. Cela dépasse les approches marketing traditionnelles, qui segmentent principalement les audiences sur des critères démographiques (âge, sexe, localisation).
L’expérience de Kosinski et Matz montre que les campagnes publicitaires peuvent être optimisées en s’appuyant sur des profils psychologiques, ce qui permet : une personnalisation accrue (les marques peuvent créer des messages sur-mesure qui parlent directement à leurs cibles), et un retour sur investissement amélioré (en augmentant les taux de clics et les conversions, ces campagnes deviennent plus efficaces et rentables). Les plateformes comme Netflix ou Amazon par exemple utilisent ces modèles pour proposer des recommandations basées sur les préférences psychologiques des utilisateurs, améliorant ainsi leur satisfaction et leur fidélité.
Les modèles prédictifs de Kosinski sont également utilisés pour évaluer les candidats lors des processus de recrutement. Les traits de personnalité identifiés permettent de mieux cerner la compatibilité avec un poste ou une équipe.
Ils ont également des applications dans la détection des troubles psychologiques. Par exemple, des indices dans les « likes » ou les publications peuvent signaler des tendances dépressives ou anxieuses, ouvrant la voie à des interventions précoces. Les données issues des réseaux sociaux peuvent également être croisées avec d’autres types d’informations.
6. Les applications politiques
Les travaux de Michal Kosinski, bien qu’innovants et largement axés sur la recherche académique, sont souvent associés, à tort ou à raison, au scandale Cambridge Analytica.
Ses découvertes ont en effet ouvert la voie à des applications commerciales et politiques, en permettant un ciblage psychologique extrêmement précis. Cette technique, connue sous le nom de micro-ciblage psychographique, consiste à diviser une audience en segments basés sur leurs traits de personnalité ou leurs croyances, afin de leur adresser des messages personnalisés.
Cambridge Analytica aurait utilisé des méthodes similaires pour collecter des données et influencer les comportements politiques. En 2014, l’entreprise aurait exploité une application Facebook développée par Aleksandr Kogan, intitulée *This Is Your Digital Life*. Cette application proposait un test de personnalité, mais en recueillant les données des utilisateurs, elle aurait également collecté celles de leurs amis, sans leur consentement explicite. Cela aurait permis à Cambridge Analytica d’obtenir des informations sur des dizaines de millions de profils Facebook.

Ces données auraient ensuite été analysées pour créer des profils psychographiques détaillés, en s’appuyant sur des techniques proches de celles élaborées dans les travaux de Kosinski. L’objectif aurait été de segmenter les électeurs en fonction de leur personnalité et de leur vulnérabilité à certains types de messages. Ces informations auraient été utilisées pour diffuser des publicités politiques hautement personnalisées, conçues pour influencer les perceptions et les comportements de vote.
En pratique, il s’agit de dresser le profil psychologique d’une personne, d’en déterminer les centres d’intérêt et, si besoin, de trouver les arguments pertinents ou de provoquer des émotions mobilisatrices comme la peur ou la colère pour modifier ses croyances et ses comportements. C’est très facile [pour approfondir].
Bien que Kosinski n’ait pas collaboré avec Cambridge Analytica, certaines de ses recherches ont indirectement servi de référence méthodologique. Par exemple :
– Prédiction des traits psychologiques : Les algorithmes de Cambridge Analytica se basaient sur des principes similaires à ceux développés par Kosinski pour prédire les traits de personnalité des Big Five à partir de données Facebook.
– Segmentation psychographique : Les techniques de micro-ciblage utilisées dans les campagnes politiques s’appuyaient sur des segments psychologiques, permettant d’adapter les messages à des groupes spécifiques d’électeurs.
– Exploitation des réseaux sociaux : Comme Kosinski l’avait démontré, les « likes » Facebook et les autres interactions numériques sont des indicateurs puissants pour révéler des informations sur les individus.
Ces points de convergence ont conduit certains critiques à établir un lien entre les travaux académiques de Kosinski et les pratiques de Cambridge Analytica, bien qu’il n’ait aucunement approuvé ou participé à ces activités.
Lorsque le scandale de Cambridge Analytica a éclaté, Kosinski a exprimé sa préoccupation quant à l’utilisation abusive de ses découvertes. Il a souligné que ses recherches visaient à démontrer les capacités prédictives des données numériques, tout en mettant en garde contre les risques liés à leur exploitation sans éthique ni consentement. Selon lui, la collecte massive de données à l’insu des utilisateurs, comme cela a été le cas dans l’affaire Cambridge Analytica, constitue une violation flagrante de la vie privée.
Kosinski a également averti que l’essor des technologies de prédiction psychologique exige une réglementation stricte pour protéger les droits des individus. Il a insisté sur la nécessité d’informer les utilisateurs sur la manière dont leurs données sont utilisées et de leur permettre de contrôler ce processus.
L’affaire Cambridge Analytica illustre les risques associés à l’absence de garde-fous éthiques et juridiques dans l’utilisation des données numériques. Elle souligne que les innovations technologiques, même développées dans un cadre académique, peuvent être détournées à des fins manipulatrices. Voici quelques enseignements clés :
– Transparence : Les utilisateurs doivent être informés de la manière dont leurs données sont collectées, analysées et utilisées.
– Consentement éclairé : Les plateformes doivent obtenir un accord explicite avant d’exploiter les données personnelles.
– Responsabilité des chercheurs : Les scientifiques doivent anticiper les implications éthiques de leurs travaux et promouvoir des normes strictes pour éviter les abus.
– Réglementation : Les législateurs doivent encadrer l’utilisation des données numériques, en renforçant des lois comme le RGPD en Europe.

Conclusion : Une révolution psychologique et sociétale
Les études de Michal Kosinski sur la prédiction de la personnalité illustrent le pouvoir des données numériques pour comprendre les comportements humains. Elles ouvrent des perspectives fascinantes dans des domaines tels que le marketing, la santé mentale et les sciences sociales. Cependant, elles soulignent également la nécessité d’un cadre éthique et réglementaire clair pour protéger la vie privée et éviter les abus.