Perception ou Préjugé : Les MLLMs peuvent-ils dépasser les premières impressions de personnalité ?

Résumé

Les Modèles de Langage Multimodaux de Grande Taille (MLLMs) sont de plus en plus déployés dans des rôles en interaction humaine où la perception de la personnalité est cruciale, mais les benchmarks existants évaluent cette capacité uniquement sur la prédiction numérique des scores du Big Five, laissant en suspens la question de savoir si les modèles perçoivent véritablement la personnalité par une compréhension comportementale ou s'ils se contentent de préjuger par un appariement superficiel de motifs. Nous comblons cette lacune avec trois contributions. (i) Une nouvelle tâche : nous formalisons le Raisonnement de Personnalité Ancré (GPR), qui exige des MLLMs qu'ils ancrent chaque évaluation du Big Five dans des preuves observables via une chaîne d'évaluation, de raisonnement et d'ancrage. (ii) Un nouvel ensemble de données : nous publions MM-OCEAN (1 104 vidéos, 5 320 QCM), produit par un pipeline multi-agents avec vérification humaine, comprenant des observations comportementales horodatées, des analyses de traits fondées sur des preuves, et sept catégories de QCM d'ancrage aux indices. (iii) Benchmark et analyse : nous concevons une évaluation à trois niveaux (évaluation, raisonnement, ancrage) ainsi que quatre métriques de modes de défaillance au niveau des échantillons : Taux de Préjugé (PR), Taux de Confabulation (CR), Taux d'Échec d'Intégration (IR), et Taux d'Ancrage Holistique (HR), et nous évaluons 27 MLLMs (13 fermés, 14 ouverts). L'analyse révèle un Écart de Préjugé frappant : dans l'ensemble du domaine, 51 % des évaluations correctes ne sont pas ancrées dans les indices extraits, et le Taux d'Ancrage Holistique s'étend seulement de 0 % à 33,5 %. Ces résultats exposent un décalage entre l'obtention du bon score et le raisonnement pour la bonne raison, traçant une feuille de route pour une cognition sociale ancrée dans les MLLMs.

English

Multimodal Large Language Models (MLLMs) are increasingly deployed in human-facing roles where personality perception is critical, yet existing benchmarks evaluate this capability solely on numerical Big Five score prediction, leaving open whether models truly perceive personality through behavioral understanding or merely prejudge through superficial pattern matching. We address this gap with three contributions. (i) A new task: we formalize Grounded Personality Reasoning (GPR), which requires MLLMs to anchor each Big Five rating in observable evidence through a chain of rating, reasoning, and grounding. (ii) A new dataset: we release MM-OCEAN (1,104 videos, 5,320 MCQs), produced by a multi-agent pipeline with human verification, with timestamped behavioral observations, evidence-grounded trait analyses, and seven categories of cue-grounding MCQs. (iii) Benchmark and analysis: we design a three-tier evaluation (rating, reasoning, grounding) plus four sample-level failure-mode metrics: Prejudice Rate (PR), Confabulation Rate (CR), Integration-failure Rate (IR), and Holistic-grounding Rate (HR), and benchmark 27 MLLMs (13 closed, 14 open). The analysis uncovers a striking Prejudice Gap: across the field, 51% of correct ratings are not grounded in retrieved cues, and the Holistic-Grounding Rate spans only 0-33.5%. These findings expose a disconnect between getting the right score and reasoning for the right reason, charting a roadmap for grounded social cognition in MLLMs.