MME-CC: Un Benchmark di Valutazione Multi-Modale e Impegnativo della Capacità Cognitiva

Abstract

Con la rapida scalata dei modelli di ragionamento, il ruolo essenziale della multimodalità nella cognizione umana è venuto in primo piano, guidando una crescente necessità di indagare i comportamenti cognitivi centrati sulla visione. Tuttavia, i benchmark multimodali esistenti enfatizzano eccessivamente il ragionamento testuale o non riescono a catturare sistematicamente i comportamenti cognitivi vision-centrici, lasciando la capacità cognitiva dei MLLM insufficientemente valutata. Per affrontare questa limitazione, introduciamo MME-CC (Multi-Modal Evaluation benchmark of Cognitive Capacity), un benchmark ancorato alla visione che organizza 11 compiti di ragionamento rappresentativi in tre categorie fondamentali di informazione visiva: ragionamento spaziale, geometrico e basato sulla conoscenza, fornendo analisi granulari della capacità cognitiva dei MLLM attraverso queste dimensioni. Basandoci su MME-CC, conduciamo esperimenti estesi su 16 MLLM rappresentativi. Il nostro studio rivela che i modelli closed-source attualmente sono in vantaggio complessivo (ad esempio, 42,66 per Gemini-2.5-Pro contro 30,45 per GLM-4.5V), mentre il ragionamento spaziale e geometrico rimane ampiamente debole (inferiore o uguale al 30%). Identifichiamo ulteriormente modelli di errore comuni, inclusi errori di orientamento, fragile persistenza dell'identità cross-view e scarso rispetto delle istruzioni controfattuali, e osserviamo che il Chain-of-Thought segue tipicamente un processo in tre fasi (estrai -> ragiona -> verifica) con una forte dipendenza dall'estrazione visiva. Speriamo che questo lavoro catalizzi un cambiamento verso il trattamento della capacità cognitiva dei MLLM come centrale sia per la valutazione che per la progettazione dei modelli.

English

As reasoning models scale rapidly, the essential role of multimodality in human cognition has come into sharp relief, driving a growing need to probe vision-centric cognitive behaviors. Yet, existing multimodal benchmarks either overemphasize textual reasoning or fall short of systematically capturing vision-centric cognitive behaviors, leaving the cognitive capacity of MLLMs insufficiently assessed. To address this limitation, we introduce MME-CC (Multi-Modal Evaluation benchmark of Cognitive Capacity), a vision-grounded benchmark that organizes 11 representative reasoning tasks into three fundamental categories of visual information: spatial, geometric, and knowledge-based reasoning, and provides fine-grained analyses of MLLMs' cognitive capacity across these dimensions. Based on MME-CC, we conduct extensive experiments over 16 representative MLLMs. Our study reveals that closed-source models currently lead overall (e.g., 42.66 for Gemini-2.5-Pro vs. 30.45 for GLM-4.5V), while spatial and geometric reasoning remain broadly weak (less than or equal to 30%). We further identify common error patterns, including orientation mistakes, fragile cross-view identity persistence, and poor adherence to counterfactual instructions, and observe that Chain-of-Thought typically follows a three-stage process (extract -> reason -> verify) with heavy reliance on visual extraction. We hope this work catalyzes a shift toward treating the cognitive capacity of MLLMs as central to both evaluation and model design.

MME-CC: Un Benchmark di Valutazione Multi-Modale e Impegnativo della Capacità Cognitiva

MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity

Abstract

Support