MME-CC:認知能力の挑戦的なマルチモーダル評価ベンチマーク
MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity
November 5, 2025
著者: Kaiyuan Zhang, Chenghao Yang, Zhoufutu Wen, Sihang Yuan, Qiuyue Wang, Chaoyi Huang, Guosheng Zhu, He Wang, Huawenyu Lu, Jianing Wen, Jianpeng Jiao, Lishu Luo, Longxiang Liu, Sijin Wu, Xiaolei Zhu, Xuanliang Zhang, Ge Zhang, Yi Lin, Guang Shi, Chaoyou Fu, Wenhao Huang
cs.AI
要旨
推論モデルの急速なスケーリングに伴い、人間の認知におけるマルチモーダリティの本質的役割が鮮明となり、視覚中心の認知行動を探求する必要性が高まっている。しかし、既存のマルチモーダルベンチマークは、テキスト推論を過度に重視するか、視覚中心の認知行動を体系的に捉えることに不足しており、MLLM(大規模マルチモーダル言語モデル)の認知能力が不十分に評価されている。この課題に対処するため、我々はMME-CC(認知能力のマルチモーダル評価ベンチマーク)を提案する。これは視覚に基盤を置くベンチマークであり、11の代表的な推論タスクを空間的・幾何的・知識ベース推論という3つの基本的な視覚情報カテゴリに分類し、MLLMの認知能力をこれらの次元にわたって詳細に分析する。MME-CCに基づき、我々は16の代表的なMLLMで大規模な実験を実施した。本研究により、現状ではクローズドソースモデルが総合的に優位(例:Gemini-2.5-Proの42.66対GLM-4.5Vの30.45)である一方、空間推論と幾何推論は広範に弱点(30%以下)であることが明らかになった。さらに、方向認識の誤り、脆弱な異視点間の同一性維持、反事実的指示への低い遵守度といった共通の誤りパターンを特定し、Chain-of-Thoughtが通常3段階のプロセス(抽出→推論→検証)を経て、視覚的抽出に強く依存することを観察した。本研究成果が、MLLMの認知能力を評価とモデル設計の中心課題として扱う方向性を促進することを期待する。
English
As reasoning models scale rapidly, the essential role of multimodality in
human cognition has come into sharp relief, driving a growing need to probe
vision-centric cognitive behaviors. Yet, existing multimodal benchmarks either
overemphasize textual reasoning or fall short of systematically capturing
vision-centric cognitive behaviors, leaving the cognitive capacity of MLLMs
insufficiently assessed. To address this limitation, we introduce MME-CC
(Multi-Modal Evaluation benchmark of Cognitive Capacity), a vision-grounded
benchmark that organizes 11 representative reasoning tasks into three
fundamental categories of visual information: spatial, geometric, and
knowledge-based reasoning, and provides fine-grained analyses of MLLMs'
cognitive capacity across these dimensions. Based on MME-CC, we conduct
extensive experiments over 16 representative MLLMs. Our study reveals that
closed-source models currently lead overall (e.g., 42.66 for Gemini-2.5-Pro vs.
30.45 for GLM-4.5V), while spatial and geometric reasoning remain broadly weak
(less than or equal to 30%). We further identify common error patterns,
including orientation mistakes, fragile cross-view identity persistence, and
poor adherence to counterfactual instructions, and observe that
Chain-of-Thought typically follows a three-stage process (extract -> reason ->
verify) with heavy reliance on visual extraction. We hope this work catalyzes a
shift toward treating the cognitive capacity of MLLMs as central to both
evaluation and model design.