MME-CC: Um Desafiador Benchmark de Avaliação Multimodal da Capacidade Cognitiva

Resumo

À medida que os modelos de raciocínio evoluem rapidamente, o papel essencial da multimodalidade na cognição humana tornou-se evidente, impulsionando uma necessidade crescente de investigar comportamentos cognitivos centrados na visão. No entanto, os benchmarks multimodais existentes ou supervalorizam o raciocínio textual ou ficam aquém na captura sistemática de comportamentos cognitivos centrados na visão, deixando a capacidade cognitiva dos MLLMs insuficientemente avaliada. Para superar esta limitação, introduzimos o MME-CC (Benchmark de Avaliação Multimodal de Capacidade Cognitiva), uma ferramenta de avaliação ancorada na visão que organiza 11 tarefas de raciocínio representativas em três categorias fundamentais de informação visual: raciocínio espacial, geométrico e baseado em conhecimento, fornecendo análises detalhadas da capacidade cognitiva dos MLLMs nessas dimensões. Com base no MME-CC, conduzimos experimentos extensivos com 16 MLLMs representativos. Nosso estudo revela que os modelos de código fechado atualmente lideram no desempenho geral (por exemplo, 42,66 para o Gemini-2.5-Pro versus 30,45 para o GLM-4.5V), enquanto o raciocínio espacial e geométrico permanecem amplamente frágeis (menor ou igual a 30%). Identificamos ainda padrões comuns de erro, incluindo equívocos de orientação, persistência frágil de identidade entre vistas e baixa aderência a instruções contrafactuais, e observamos que o Chain-of-Thought geralmente segue um processo de três etapas (extrair -> raciocinar -> verificar) com forte dependência da extração visual. Esperamos que este trabalho catalise uma mudança rumo ao tratamento da capacidade cognitiva dos MLLMs como elemento central tanto para avaliação quanto para o design de modelos.

English

As reasoning models scale rapidly, the essential role of multimodality in human cognition has come into sharp relief, driving a growing need to probe vision-centric cognitive behaviors. Yet, existing multimodal benchmarks either overemphasize textual reasoning or fall short of systematically capturing vision-centric cognitive behaviors, leaving the cognitive capacity of MLLMs insufficiently assessed. To address this limitation, we introduce MME-CC (Multi-Modal Evaluation benchmark of Cognitive Capacity), a vision-grounded benchmark that organizes 11 representative reasoning tasks into three fundamental categories of visual information: spatial, geometric, and knowledge-based reasoning, and provides fine-grained analyses of MLLMs' cognitive capacity across these dimensions. Based on MME-CC, we conduct extensive experiments over 16 representative MLLMs. Our study reveals that closed-source models currently lead overall (e.g., 42.66 for Gemini-2.5-Pro vs. 30.45 for GLM-4.5V), while spatial and geometric reasoning remain broadly weak (less than or equal to 30%). We further identify common error patterns, including orientation mistakes, fragile cross-view identity persistence, and poor adherence to counterfactual instructions, and observe that Chain-of-Thought typically follows a three-stage process (extract -> reason -> verify) with heavy reliance on visual extraction. We hope this work catalyzes a shift toward treating the cognitive capacity of MLLMs as central to both evaluation and model design.

MME-CC: Um Desafiador Benchmark de Avaliação Multimodal da Capacidade Cognitiva

MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity

Resumo

Support