MME-CC: Um Desafiador Benchmark de Avaliação Multimodal da Capacidade Cognitiva
MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity
November 5, 2025
Autores: Kaiyuan Zhang, Chenghao Yang, Zhoufutu Wen, Sihang Yuan, Qiuyue Wang, Chaoyi Huang, Guosheng Zhu, He Wang, Huawenyu Lu, Jianing Wen, Jianpeng Jiao, Lishu Luo, Longxiang Liu, Sijin Wu, Xiaolei Zhu, Xuanliang Zhang, Ge Zhang, Yi Lin, Guang Shi, Chaoyou Fu, Wenhao Huang
cs.AI
Resumo
À medida que os modelos de raciocínio evoluem rapidamente, o papel essencial da multimodalidade na cognição humana tornou-se evidente, impulsionando uma necessidade crescente de investigar comportamentos cognitivos centrados na visão. No entanto, os benchmarks multimodais existentes ou supervalorizam o raciocínio textual ou ficam aquém na captura sistemática de comportamentos cognitivos centrados na visão, deixando a capacidade cognitiva dos MLLMs insuficientemente avaliada. Para superar esta limitação, introduzimos o MME-CC (Benchmark de Avaliação Multimodal de Capacidade Cognitiva), uma ferramenta de avaliação ancorada na visão que organiza 11 tarefas de raciocínio representativas em três categorias fundamentais de informação visual: raciocínio espacial, geométrico e baseado em conhecimento, fornecendo análises detalhadas da capacidade cognitiva dos MLLMs nessas dimensões. Com base no MME-CC, conduzimos experimentos extensivos com 16 MLLMs representativos. Nosso estudo revela que os modelos de código fechado atualmente lideram no desempenho geral (por exemplo, 42,66 para o Gemini-2.5-Pro versus 30,45 para o GLM-4.5V), enquanto o raciocínio espacial e geométrico permanecem amplamente frágeis (menor ou igual a 30%). Identificamos ainda padrões comuns de erro, incluindo equívocos de orientação, persistência frágil de identidade entre vistas e baixa aderência a instruções contrafactuais, e observamos que o Chain-of-Thought geralmente segue um processo de três etapas (extrair -> raciocinar -> verificar) com forte dependência da extração visual. Esperamos que este trabalho catalise uma mudança rumo ao tratamento da capacidade cognitiva dos MLLMs como elemento central tanto para avaliação quanto para o design de modelos.
English
As reasoning models scale rapidly, the essential role of multimodality in
human cognition has come into sharp relief, driving a growing need to probe
vision-centric cognitive behaviors. Yet, existing multimodal benchmarks either
overemphasize textual reasoning or fall short of systematically capturing
vision-centric cognitive behaviors, leaving the cognitive capacity of MLLMs
insufficiently assessed. To address this limitation, we introduce MME-CC
(Multi-Modal Evaluation benchmark of Cognitive Capacity), a vision-grounded
benchmark that organizes 11 representative reasoning tasks into three
fundamental categories of visual information: spatial, geometric, and
knowledge-based reasoning, and provides fine-grained analyses of MLLMs'
cognitive capacity across these dimensions. Based on MME-CC, we conduct
extensive experiments over 16 representative MLLMs. Our study reveals that
closed-source models currently lead overall (e.g., 42.66 for Gemini-2.5-Pro vs.
30.45 for GLM-4.5V), while spatial and geometric reasoning remain broadly weak
(less than or equal to 30%). We further identify common error patterns,
including orientation mistakes, fragile cross-view identity persistence, and
poor adherence to counterfactual instructions, and observe that
Chain-of-Thought typically follows a three-stage process (extract -> reason ->
verify) with heavy reliance on visual extraction. We hope this work catalyzes a
shift toward treating the cognitive capacity of MLLMs as central to both
evaluation and model design.