MME-CC: Un Benchmark di Valutazione Multi-Modale e Impegnativo della Capacità Cognitiva
MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity
November 5, 2025
Autori: Kaiyuan Zhang, Chenghao Yang, Zhoufutu Wen, Sihang Yuan, Qiuyue Wang, Chaoyi Huang, Guosheng Zhu, He Wang, Huawenyu Lu, Jianing Wen, Jianpeng Jiao, Lishu Luo, Longxiang Liu, Sijin Wu, Xiaolei Zhu, Xuanliang Zhang, Ge Zhang, Yi Lin, Guang Shi, Chaoyou Fu, Wenhao Huang
cs.AI
Abstract
Con la rapida scalata dei modelli di ragionamento, il ruolo essenziale della multimodalità nella cognizione umana è venuto in primo piano, guidando una crescente necessità di indagare i comportamenti cognitivi centrati sulla visione. Tuttavia, i benchmark multimodali esistenti enfatizzano eccessivamente il ragionamento testuale o non riescono a catturare sistematicamente i comportamenti cognitivi vision-centrici, lasciando la capacità cognitiva dei MLLM insufficientemente valutata. Per affrontare questa limitazione, introduciamo MME-CC (Multi-Modal Evaluation benchmark of Cognitive Capacity), un benchmark ancorato alla visione che organizza 11 compiti di ragionamento rappresentativi in tre categorie fondamentali di informazione visiva: ragionamento spaziale, geometrico e basato sulla conoscenza, fornendo analisi granulari della capacità cognitiva dei MLLM attraverso queste dimensioni. Basandoci su MME-CC, conduciamo esperimenti estesi su 16 MLLM rappresentativi. Il nostro studio rivela che i modelli closed-source attualmente sono in vantaggio complessivo (ad esempio, 42,66 per Gemini-2.5-Pro contro 30,45 per GLM-4.5V), mentre il ragionamento spaziale e geometrico rimane ampiamente debole (inferiore o uguale al 30%). Identifichiamo ulteriormente modelli di errore comuni, inclusi errori di orientamento, fragile persistenza dell'identità cross-view e scarso rispetto delle istruzioni controfattuali, e osserviamo che il Chain-of-Thought segue tipicamente un processo in tre fasi (estrai -> ragiona -> verifica) con una forte dipendenza dall'estrazione visiva. Speriamo che questo lavoro catalizzi un cambiamento verso il trattamento della capacità cognitiva dei MLLM come centrale sia per la valutazione che per la progettazione dei modelli.
English
As reasoning models scale rapidly, the essential role of multimodality in
human cognition has come into sharp relief, driving a growing need to probe
vision-centric cognitive behaviors. Yet, existing multimodal benchmarks either
overemphasize textual reasoning or fall short of systematically capturing
vision-centric cognitive behaviors, leaving the cognitive capacity of MLLMs
insufficiently assessed. To address this limitation, we introduce MME-CC
(Multi-Modal Evaluation benchmark of Cognitive Capacity), a vision-grounded
benchmark that organizes 11 representative reasoning tasks into three
fundamental categories of visual information: spatial, geometric, and
knowledge-based reasoning, and provides fine-grained analyses of MLLMs'
cognitive capacity across these dimensions. Based on MME-CC, we conduct
extensive experiments over 16 representative MLLMs. Our study reveals that
closed-source models currently lead overall (e.g., 42.66 for Gemini-2.5-Pro vs.
30.45 for GLM-4.5V), while spatial and geometric reasoning remain broadly weak
(less than or equal to 30%). We further identify common error patterns,
including orientation mistakes, fragile cross-view identity persistence, and
poor adherence to counterfactual instructions, and observe that
Chain-of-Thought typically follows a three-stage process (extract -> reason ->
verify) with heavy reliance on visual extraction. We hope this work catalyzes a
shift toward treating the cognitive capacity of MLLMs as central to both
evaluation and model design.