Percepção ou Preconceito: Podem os MLLMs ir além das primeiras impressões de personalidade?

Resumo

Modelos de Linguagem Multimodais Grandes (MLLMs) estão sendo cada vez mais implantados em funções voltadas para humanos, onde a percepção de personalidade é crítica. No entanto, os benchmarks existentes avaliam essa capacidade exclusivamente por meio da previsão numérica dos escores do Big Five, deixando em aberto se os modelos realmente percebem a personalidade por meio da compreensão comportamental ou apenas fazem julgamentos prévios por meio de correspondência superficial de padrões. Abordamos essa lacuna com três contribuições. (i) Uma nova tarefa: formalizamos o Raciocínio de Personalidade Fundamentado (GPR), que exige que os MLLMs ancorem cada avaliação do Big Five em evidências observáveis por meio de uma cadeia de avaliação, raciocínio e fundamentação. (ii) Um novo conjunto de dados: lançamos o MM-OCEAN (1.104 vídeos, 5.320 MCQs), produzido por um pipeline multiagente com verificação humana, contendo observações comportamentais com carimbo de tempo, análises de traços fundamentadas em evidências e sete categorias de MCQs de fundamentação de pistas. (iii) Benchmark e análise: projetamos uma avaliação em três níveis (avaliação, raciocínio, fundamentação) mais quatro métricas de modo de falha em nível de amostra: Taxa de Preconceito (PR), Taxa de Confabulação (CR), Taxa de Falha de Integração (IR) e Taxa de Fundamentação Holística (HR), e avaliamos 27 MLLMs (13 fechados, 14 abertos). A análise revela uma surpreendente Lacuna de Preconceito: em todo o campo, 51% das avaliações corretas não estão fundamentadas em pistas recuperadas, e a Taxa de Fundamentação Holística varia apenas de 0 a 33,5%. Esses achados expõem uma desconexão entre obter a pontuação correta e raciocinar pelo motivo certo, traçando um roteiro para a cognição social fundamentada em MLLMs.

English

Multimodal Large Language Models (MLLMs) are increasingly deployed in human-facing roles where personality perception is critical, yet existing benchmarks evaluate this capability solely on numerical Big Five score prediction, leaving open whether models truly perceive personality through behavioral understanding or merely prejudge through superficial pattern matching. We address this gap with three contributions. (i) A new task: we formalize Grounded Personality Reasoning (GPR), which requires MLLMs to anchor each Big Five rating in observable evidence through a chain of rating, reasoning, and grounding. (ii) A new dataset: we release MM-OCEAN (1,104 videos, 5,320 MCQs), produced by a multi-agent pipeline with human verification, with timestamped behavioral observations, evidence-grounded trait analyses, and seven categories of cue-grounding MCQs. (iii) Benchmark and analysis: we design a three-tier evaluation (rating, reasoning, grounding) plus four sample-level failure-mode metrics: Prejudice Rate (PR), Confabulation Rate (CR), Integration-failure Rate (IR), and Holistic-grounding Rate (HR), and benchmark 27 MLLMs (13 closed, 14 open). The analysis uncovers a striking Prejudice Gap: across the field, 51% of correct ratings are not grounded in retrieved cues, and the Holistic-Grounding Rate spans only 0-33.5%. These findings expose a disconnect between getting the right score and reasoning for the right reason, charting a roadmap for grounded social cognition in MLLMs.