MME-CC: Een Uitdagende Multi-Modale Evaluatiebenchmark voor Cognitieve Capaciteit
MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity
November 5, 2025
Auteurs: Kaiyuan Zhang, Chenghao Yang, Zhoufutu Wen, Sihang Yuan, Qiuyue Wang, Chaoyi Huang, Guosheng Zhu, He Wang, Huawenyu Lu, Jianing Wen, Jianpeng Jiao, Lishu Luo, Longxiang Liu, Sijin Wu, Xiaolei Zhu, Xuanliang Zhang, Ge Zhang, Yi Lin, Guang Shi, Chaoyou Fu, Wenhao Huang
cs.AI
Samenvatting
Naarmate redeneermodellen zich snel ontwikkelen, komt de essentiële rol van multimodaliteit in de menselijke cognitie steeds scherper in beeld, wat de groeiende behoefte aandrijft om visie-gestuurde cognitieve gedragingen te onderzoeken. Toch leggen bestaande multimodale benchmarks ofwel een te grote nadruk op tekstueel redeneren, ofwel schieten ze tekort in het systematisch vastleggen van visie-gestuurde cognitieve gedragingen, waardoor het cognitieve vermogen van MLLMs onvoldoende wordt beoordeeld. Om deze beperking aan te pakken, introduceren wij MME-CC (Multi-Modal Evaluation benchmark of Cognitive Capacity), een visueel verankerde benchmark die 11 representatieve redeneertaken organiseert in drie fundamentele categorieën van visuele informatie: ruimtelijk, geometrisch en kennisgebaseerd redeneren, en die fijnmazige analyses verschaft van het cognitieve vermogen van MLLMs binnen deze dimensies. Gebaseerd op MME-CC voeren we uitgebreide experimenten uit met 16 representatieve MLLMs. Onze studie toont aan dat gesloten-bronmodellen momenteel algemeen de leiding hebben (bijvoorbeeld 42,66 voor Gemini-2.5-Pro versus 30,45 voor GLM-4.5V), terwijl ruimtelijk en geometrisch redeneren breed genomen zwak blijven (minder dan of gelijk aan 30%). We identificeren verder veelvoorkomende foutpatronen, waaronder oriëntatiefouten, kwetsbare cross-view identiteitspersistentie en slechte naleving van counterfactuele instructies, en observeren dat Chain-of-Thought doorgaans een driestappenproces volgt (extraheren -> redeneren -> verifiëren) met een sterke afhankelijkheid van visuele extractie. We hopen dat dit werk een katalysator vormt voor een verschuiving naar het behandelen van het cognitieve vermogen van MLLMs als centraal in zowel evaluatie als modelontwerp.
English
As reasoning models scale rapidly, the essential role of multimodality in
human cognition has come into sharp relief, driving a growing need to probe
vision-centric cognitive behaviors. Yet, existing multimodal benchmarks either
overemphasize textual reasoning or fall short of systematically capturing
vision-centric cognitive behaviors, leaving the cognitive capacity of MLLMs
insufficiently assessed. To address this limitation, we introduce MME-CC
(Multi-Modal Evaluation benchmark of Cognitive Capacity), a vision-grounded
benchmark that organizes 11 representative reasoning tasks into three
fundamental categories of visual information: spatial, geometric, and
knowledge-based reasoning, and provides fine-grained analyses of MLLMs'
cognitive capacity across these dimensions. Based on MME-CC, we conduct
extensive experiments over 16 representative MLLMs. Our study reveals that
closed-source models currently lead overall (e.g., 42.66 for Gemini-2.5-Pro vs.
30.45 for GLM-4.5V), while spatial and geometric reasoning remain broadly weak
(less than or equal to 30%). We further identify common error patterns,
including orientation mistakes, fragile cross-view identity persistence, and
poor adherence to counterfactual instructions, and observe that
Chain-of-Thought typically follows a three-stage process (extract -> reason ->
verify) with heavy reliance on visual extraction. We hope this work catalyzes a
shift toward treating the cognitive capacity of MLLMs as central to both
evaluation and model design.