Perceptie of Vooroordeel: Kunnen MLLMs verder gaan dan eerste indrukken van persoonlijkheid?

Samenvatting

Multimodale Grote Taalmodellen (MLLM's) worden steeds vaker ingezet in mensgerichte rollen waar persoonlijkheidsperceptie cruciaal is, maar bestaande benchmarks evalueren deze capaciteit uitsluitend op numerieke voorspelling van de Big Five-scores, waardoor onduidelijk blijft of modellen persoonlijkheid werkelijk waarnemen via gedragsbegrip of slechts vooroordelen op basis van oppervlakkige patroonherkenning. Wij vullen deze leemte met drie bijdragen. (i) Een nieuwe taak: we formaliseren Grondige Persoonlijkheidsredenering (GPR), die van MLLM's vereist om elke Big Five-beoordeling te verankeren in waarneembaar bewijs via een keten van beoordeling, redenering en gronding. (ii) Een nieuwe dataset: we publiceren MM-OCEAN (1.104 video's, 5.320 meerkeuzevragen), geproduceerd door een multi-agent pijplijn met menselijke verificatie, met tijdgestempelde gedragsobservaties, bewijsgefundeerde trekkenanalyses en zeven categorieën cue-grondings meerkeuzevragen. (iii) Benchmark en analyse: we ontwerpen een drietraps evaluatie (beoordeling, redenering, gronding) plus vier steekproefgebaseerde faalmodus-metrics: Vooroordeelpercentage (PR), Confabulatiepercentage (CR), Integratiefaalpercentage (IR) en Holistisch Grondingspercentage (HR), en benchmarken 27 MLLM's (13 gesloten, 14 open). De analyse onthult een opvallende Vooroordeelskloof: over het hele veld is 51% van de correcte beoordelingen niet verankerd in opgehaalde cues, en het Holistisch Grondingspercentage varieert slechts van 0-33,5%. Deze bevindingen leggen een disconnectie bloot tussen het krijgen van de juiste score en het redeneren om de juiste reden, en schetsen een routekaart voor gefundeerde sociale cognitie in MLLM's.

English

Multimodal Large Language Models (MLLMs) are increasingly deployed in human-facing roles where personality perception is critical, yet existing benchmarks evaluate this capability solely on numerical Big Five score prediction, leaving open whether models truly perceive personality through behavioral understanding or merely prejudge through superficial pattern matching. We address this gap with three contributions. (i) A new task: we formalize Grounded Personality Reasoning (GPR), which requires MLLMs to anchor each Big Five rating in observable evidence through a chain of rating, reasoning, and grounding. (ii) A new dataset: we release MM-OCEAN (1,104 videos, 5,320 MCQs), produced by a multi-agent pipeline with human verification, with timestamped behavioral observations, evidence-grounded trait analyses, and seven categories of cue-grounding MCQs. (iii) Benchmark and analysis: we design a three-tier evaluation (rating, reasoning, grounding) plus four sample-level failure-mode metrics: Prejudice Rate (PR), Confabulation Rate (CR), Integration-failure Rate (IR), and Holistic-grounding Rate (HR), and benchmark 27 MLLMs (13 closed, 14 open). The analysis uncovers a striking Prejudice Gap: across the field, 51% of correct ratings are not grounded in retrieved cues, and the Holistic-Grounding Rate spans only 0-33.5%. These findings expose a disconnect between getting the right score and reasoning for the right reason, charting a roadmap for grounded social cognition in MLLMs.