Wahrnehmung oder Vorurteil: Können MLLMs über erste Eindrücke der Persönlichkeit hinausgehen?

Zusammenfassung

Multimodale Große Sprachmodelle (MLLMs) werden zunehmend in menschenbezogenen Rollen eingesetzt, in denen die Wahrnehmung von Persönlichkeit entscheidend ist. Dennoch evaluieren bestehende Benchmarks diese Fähigkeit ausschließlich anhand der numerischen Vorhersage von Big-Five-Werten und lassen offen, ob Modelle Persönlichkeit tatsächlich durch Verhaltensverständnis wahrnehmen oder lediglich durch oberflächliches Mustererkennen vorschnell beurteilen. Wir schließen diese Lücke mit drei Beiträgen: (i) Eine neue Aufgabe: Wir formalisieren Grounded Personality Reasoning (GPR), das von MLLMs verlangt, jede Big-Five-Bewertung durch eine Kette aus Bewertung, Begründung und Verankerung in beobachtbaren Evidenzen zu fundieren. (ii) Ein neuer Datensatz: Wir veröffentlichen MM-OCEAN (1.104 Videos, 5.320 Multiple-Choice-Fragen), erstellt durch eine Multi-Agenten-Pipeline mit menschlicher Verifikation, versehen mit zeitgestempelten Verhaltensbeobachtungen, evidenzbasierten Eigenschaftsanalysen und sieben Kategorien von Hinweisverankerungs-Multiple-Choice-Fragen. (iii) Benchmark und Analyse: Wir entwickeln eine dreistufige Evaluation (Bewertung, Begründung, Verankerung) sowie vier stichprobenbezogene Fehlermodusmetriken: Vorurteilsrate (PR), Konfabulationsrate (CR), Integrationsfehlerrate (IR) und Ganzheitliche Verankerungsrate (HR). Wir benchmarken 27 MLLMs (13 geschlossene, 14 offene). Die Analyse deckt eine auffällige Vorurteilslücke auf: Über das gesamte Feld hinweg sind 51 % der korrekten Bewertungen nicht in abgerufenen Hinweisen verankert, und die Ganzheitliche Verankerungsrate liegt lediglich zwischen 0 % und 33,5 %. Diese Ergebnisse offenbaren einen Bruch zwischen dem Erzielen der richtigen Bewertung und dem Begründen aus den richtigen Gründen und zeichnen einen Fahrplan für verankerte soziale Kognition in MLLMs.

English

Multimodal Large Language Models (MLLMs) are increasingly deployed in human-facing roles where personality perception is critical, yet existing benchmarks evaluate this capability solely on numerical Big Five score prediction, leaving open whether models truly perceive personality through behavioral understanding or merely prejudge through superficial pattern matching. We address this gap with three contributions. (i) A new task: we formalize Grounded Personality Reasoning (GPR), which requires MLLMs to anchor each Big Five rating in observable evidence through a chain of rating, reasoning, and grounding. (ii) A new dataset: we release MM-OCEAN (1,104 videos, 5,320 MCQs), produced by a multi-agent pipeline with human verification, with timestamped behavioral observations, evidence-grounded trait analyses, and seven categories of cue-grounding MCQs. (iii) Benchmark and analysis: we design a three-tier evaluation (rating, reasoning, grounding) plus four sample-level failure-mode metrics: Prejudice Rate (PR), Confabulation Rate (CR), Integration-failure Rate (IR), and Holistic-grounding Rate (HR), and benchmark 27 MLLMs (13 closed, 14 open). The analysis uncovers a striking Prejudice Gap: across the field, 51% of correct ratings are not grounded in retrieved cues, and the Holistic-Grounding Rate spans only 0-33.5%. These findings expose a disconnect between getting the right score and reasoning for the right reason, charting a roadmap for grounded social cognition in MLLMs.