Percepción o Prejuicio: ¿Pueden los MLLMs ir más allá de las primeras impresiones de la personalidad?

Resumen

Los Modelos de Lenguaje Grandes Multimodales (MLLMs) se implementan cada vez más en roles que interactúan con humanos donde la percepción de la personalidad es crítica; sin embargo, los benchmarks existentes evalúan esta capacidad únicamente mediante la predicción numérica de puntuaciones de los Cinco Grandes, dejando abierto si los modelos realmente perciben la personalidad a través de la comprensión del comportamiento o simplemente prejuzgan mediante el reconocimiento superficial de patrones. Abordamos esta brecha con tres contribuciones. (i) Una nueva tarea: formalizamos el Razonamiento de Personalidad Fundamentado (GPR), que requiere que los MLLMs anclen cada calificación de los Cinco Grandes en evidencia observable a través de una cadena de calificación, razonamiento y fundamentación. (ii) Un nuevo conjunto de datos: publicamos MM-OCEAN (1,104 videos, 5,320 preguntas de opción múltiple), producido por un pipeline multiagente con verificación humana, que incluye observaciones conductuales con marcas de tiempo, análisis de rasgos fundamentados en evidencia y siete categorías de preguntas de opción múltiple de fundamentación de indicios. (iii) Benchmark y análisis: diseñamos una evaluación de tres niveles (calificación, razonamiento, fundamentación) más cuatro métricas de modos de fallo a nivel de muestra: Tasa de Prejuicio (PR), Tasa de Confabulación (CR), Tasa de Fracaso de Integración (IR) y Tasa de Fundamento Holístico (HR), y evaluamos 27 MLLMs (13 cerrados, 14 abiertos). El análisis revela una sorprendente Brecha de Prejuicio: en todo el campo, el 51% de las calificaciones correctas no están fundamentadas en indicios recuperados, y la Tasa de Fundamento Holístico abarca solo del 0 al 33.5%. Estos hallazgos exponen una desconexión entre obtener la puntuación correcta y razonar por la razón correcta, trazando una hoja de ruta para la cognición social fundamentada en MLLMs.

English

Multimodal Large Language Models (MLLMs) are increasingly deployed in human-facing roles where personality perception is critical, yet existing benchmarks evaluate this capability solely on numerical Big Five score prediction, leaving open whether models truly perceive personality through behavioral understanding or merely prejudge through superficial pattern matching. We address this gap with three contributions. (i) A new task: we formalize Grounded Personality Reasoning (GPR), which requires MLLMs to anchor each Big Five rating in observable evidence through a chain of rating, reasoning, and grounding. (ii) A new dataset: we release MM-OCEAN (1,104 videos, 5,320 MCQs), produced by a multi-agent pipeline with human verification, with timestamped behavioral observations, evidence-grounded trait analyses, and seven categories of cue-grounding MCQs. (iii) Benchmark and analysis: we design a three-tier evaluation (rating, reasoning, grounding) plus four sample-level failure-mode metrics: Prejudice Rate (PR), Confabulation Rate (CR), Integration-failure Rate (IR), and Holistic-grounding Rate (HR), and benchmark 27 MLLMs (13 closed, 14 open). The analysis uncovers a striking Prejudice Gap: across the field, 51% of correct ratings are not grounded in retrieved cues, and the Holistic-Grounding Rate spans only 0-33.5%. These findings expose a disconnect between getting the right score and reasoning for the right reason, charting a roadmap for grounded social cognition in MLLMs.