MME-CC : Un benchmark d'évaluation multi-modal exigeant de la capacité cognitive
MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity
November 5, 2025
papers.authors: Kaiyuan Zhang, Chenghao Yang, Zhoufutu Wen, Sihang Yuan, Qiuyue Wang, Chaoyi Huang, Guosheng Zhu, He Wang, Huawenyu Lu, Jianing Wen, Jianpeng Jiao, Lishu Luo, Longxiang Liu, Sijin Wu, Xiaolei Zhu, Xuanliang Zhang, Ge Zhang, Yi Lin, Guang Shi, Chaoyou Fu, Wenhao Huang
cs.AI
papers.abstract
Alors que les modèles de raisonnement évoluent rapidement, le rôle essentiel de la multimodalité dans la cognition humaine est devenu évident, suscitant un besoin croissant d'explorer les comportements cognitifs centrés sur la vision. Pourtant, les benchmarks multimodaux existants soit surestiment le raisonnement textuel, soit ne parviennent pas à capturer systématiquement les comportements cognitifs centrés sur la vision, laissant la capacité cognitive des MLLM insuffisamment évaluée. Pour remédier à cette limite, nous présentons MME-CC (benchmark d'Évaluation Multimodale de la Capacité Cognitive), un benchmark ancré dans la vision qui organise 11 tâches de raisonnement représentatives en trois catégories fondamentales d'information visuelle : raisonnement spatial, géométrique et basé sur les connaissances, et fournit des analyses granulaires de la capacité cognitive des MLLM selon ces dimensions. Sur la base de MME-CC, nous menons des expériences approfondies sur 16 MLLM représentatifs. Notre étude révèle que les modèles fermés sont actuellement en tête (par exemple, 42,66 pour Gemini-2.5-Pro contre 30,45 pour GLM-4.5V), tandis que le raisonnement spatial et géométrique reste globalement faible (inférieur ou égal à 30 %). Nous identifions en outre des erreurs courantes, incluant les confusions d'orientation, la persistance fragile de l'identité inter-vues et la mauvaise adhésion aux instructions contrefactuelles, et observons que le raisonnement en chaîne suit généralement un processus en trois étapes (extraire -> raisonner -> vérifier) avec une forte dépendance à l'extraction visuelle. Nous espérons que ce travail catalyse une évolution vers le traitement de la capacité cognitive des MLLM comme centrale à la fois pour l'évaluation et la conception des modèles.
English
As reasoning models scale rapidly, the essential role of multimodality in
human cognition has come into sharp relief, driving a growing need to probe
vision-centric cognitive behaviors. Yet, existing multimodal benchmarks either
overemphasize textual reasoning or fall short of systematically capturing
vision-centric cognitive behaviors, leaving the cognitive capacity of MLLMs
insufficiently assessed. To address this limitation, we introduce MME-CC
(Multi-Modal Evaluation benchmark of Cognitive Capacity), a vision-grounded
benchmark that organizes 11 representative reasoning tasks into three
fundamental categories of visual information: spatial, geometric, and
knowledge-based reasoning, and provides fine-grained analyses of MLLMs'
cognitive capacity across these dimensions. Based on MME-CC, we conduct
extensive experiments over 16 representative MLLMs. Our study reveals that
closed-source models currently lead overall (e.g., 42.66 for Gemini-2.5-Pro vs.
30.45 for GLM-4.5V), while spatial and geometric reasoning remain broadly weak
(less than or equal to 30%). We further identify common error patterns,
including orientation mistakes, fragile cross-view identity persistence, and
poor adherence to counterfactual instructions, and observe that
Chain-of-Thought typically follows a three-stage process (extract -> reason ->
verify) with heavy reliance on visual extraction. We hope this work catalyzes a
shift toward treating the cognitive capacity of MLLMs as central to both
evaluation and model design.