MME-CC: Een Uitdagende Multi-Modale Evaluatiebenchmark voor Cognitieve Capaciteit

Samenvatting

Naarmate redeneermodellen zich snel ontwikkelen, komt de essentiële rol van multimodaliteit in de menselijke cognitie steeds scherper in beeld, wat de groeiende behoefte aandrijft om visie-gestuurde cognitieve gedragingen te onderzoeken. Toch leggen bestaande multimodale benchmarks ofwel een te grote nadruk op tekstueel redeneren, ofwel schieten ze tekort in het systematisch vastleggen van visie-gestuurde cognitieve gedragingen, waardoor het cognitieve vermogen van MLLMs onvoldoende wordt beoordeeld. Om deze beperking aan te pakken, introduceren wij MME-CC (Multi-Modal Evaluation benchmark of Cognitive Capacity), een visueel verankerde benchmark die 11 representatieve redeneertaken organiseert in drie fundamentele categorieën van visuele informatie: ruimtelijk, geometrisch en kennisgebaseerd redeneren, en die fijnmazige analyses verschaft van het cognitieve vermogen van MLLMs binnen deze dimensies. Gebaseerd op MME-CC voeren we uitgebreide experimenten uit met 16 representatieve MLLMs. Onze studie toont aan dat gesloten-bronmodellen momenteel algemeen de leiding hebben (bijvoorbeeld 42,66 voor Gemini-2.5-Pro versus 30,45 voor GLM-4.5V), terwijl ruimtelijk en geometrisch redeneren breed genomen zwak blijven (minder dan of gelijk aan 30%). We identificeren verder veelvoorkomende foutpatronen, waaronder oriëntatiefouten, kwetsbare cross-view identiteitspersistentie en slechte naleving van counterfactuele instructies, en observeren dat Chain-of-Thought doorgaans een driestappenproces volgt (extraheren -> redeneren -> verifiëren) met een sterke afhankelijkheid van visuele extractie. We hopen dat dit werk een katalysator vormt voor een verschuiving naar het behandelen van het cognitieve vermogen van MLLMs als centraal in zowel evaluatie als modelontwerp.

English

As reasoning models scale rapidly, the essential role of multimodality in human cognition has come into sharp relief, driving a growing need to probe vision-centric cognitive behaviors. Yet, existing multimodal benchmarks either overemphasize textual reasoning or fall short of systematically capturing vision-centric cognitive behaviors, leaving the cognitive capacity of MLLMs insufficiently assessed. To address this limitation, we introduce MME-CC (Multi-Modal Evaluation benchmark of Cognitive Capacity), a vision-grounded benchmark that organizes 11 representative reasoning tasks into three fundamental categories of visual information: spatial, geometric, and knowledge-based reasoning, and provides fine-grained analyses of MLLMs' cognitive capacity across these dimensions. Based on MME-CC, we conduct extensive experiments over 16 representative MLLMs. Our study reveals that closed-source models currently lead overall (e.g., 42.66 for Gemini-2.5-Pro vs. 30.45 for GLM-4.5V), while spatial and geometric reasoning remain broadly weak (less than or equal to 30%). We further identify common error patterns, including orientation mistakes, fragile cross-view identity persistence, and poor adherence to counterfactual instructions, and observe that Chain-of-Thought typically follows a three-stage process (extract -> reason -> verify) with heavy reliance on visual extraction. We hope this work catalyzes a shift toward treating the cognitive capacity of MLLMs as central to both evaluation and model design.

MME-CC: Een Uitdagende Multi-Modale Evaluatiebenchmark voor Cognitieve Capaciteit

MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity

Samenvatting

Support