MME-CC: Un punto de referencia de evaluación multimodal desafiante de la capacidad cognitiva

Resumen

A medida que los modelos de razonamiento escalan rápidamente, el papel esencial de la multimodalidad en la cognición humana ha cobrado especial relevancia, impulsando una necesidad creciente de explorar comportamientos cognitivos centrados en la visión. Sin embargo, los benchmarks multimodales existentes o bien enfatizan en exceso el razonamiento textual o no logran capturar sistemáticamente los comportamientos cognitivos centrados en la visión, dejando la capacidad cognitiva de los MLLMs insuficientemente evaluada. Para abordar esta limitación, presentamos MME-CC (Benchmark de Evaluación Multimodal de la Capacidad Cognitiva), un benchmark basado en la visión que organiza 11 tareas de razonamiento representativas en tres categorías fundamentales de información visual: razonamiento espacial, geométrico y basado en conocimiento, y proporciona análisis detallados de la capacidad cognitiva de los MLLMs en estas dimensiones. Basándonos en MME-CC, realizamos experimentos exhaustivos con 16 MLLMs representativos. Nuestro estudio revela que los modelos de código cerrado actualmente lideran en general (por ejemplo, 42.66 para Gemini-2.5-Pro frente a 30.45 para GLM-4.5V), mientras que el razonamiento espacial y geométrico sigue siendo ampliamente débil (menor o igual al 30%). Además, identificamos patrones de error comunes, incluyendo errores de orientación, frágil persistencia de identidad cruzada entre vistas y pobre adherencia a instrucciones contrafácticas, y observamos que el razonamiento en cadena (Chain-of-Thought) típicamente sigue un proceso de tres etapas (extraer -> razonar -> verificar) con una fuerte dependencia de la extracción visual. Esperamos que este trabajo catalice un cambio hacia el tratamiento de la capacidad cognitiva de los MLLMs como un aspecto central tanto para la evaluación como para el diseño de modelos.

English

As reasoning models scale rapidly, the essential role of multimodality in human cognition has come into sharp relief, driving a growing need to probe vision-centric cognitive behaviors. Yet, existing multimodal benchmarks either overemphasize textual reasoning or fall short of systematically capturing vision-centric cognitive behaviors, leaving the cognitive capacity of MLLMs insufficiently assessed. To address this limitation, we introduce MME-CC (Multi-Modal Evaluation benchmark of Cognitive Capacity), a vision-grounded benchmark that organizes 11 representative reasoning tasks into three fundamental categories of visual information: spatial, geometric, and knowledge-based reasoning, and provides fine-grained analyses of MLLMs' cognitive capacity across these dimensions. Based on MME-CC, we conduct extensive experiments over 16 representative MLLMs. Our study reveals that closed-source models currently lead overall (e.g., 42.66 for Gemini-2.5-Pro vs. 30.45 for GLM-4.5V), while spatial and geometric reasoning remain broadly weak (less than or equal to 30%). We further identify common error patterns, including orientation mistakes, fragile cross-view identity persistence, and poor adherence to counterfactual instructions, and observe that Chain-of-Thought typically follows a three-stage process (extract -> reason -> verify) with heavy reliance on visual extraction. We hope this work catalyzes a shift toward treating the cognitive capacity of MLLMs as central to both evaluation and model design.

MME-CC: Un punto de referencia de evaluación multimodal desafiante de la capacidad cognitiva

MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity

Resumen

Support