MME-CC: Сложный мультимодальный эталонный тест для оценки когнитивных способностей
MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity
November 5, 2025
Авторы: Kaiyuan Zhang, Chenghao Yang, Zhoufutu Wen, Sihang Yuan, Qiuyue Wang, Chaoyi Huang, Guosheng Zhu, He Wang, Huawenyu Lu, Jianing Wen, Jianpeng Jiao, Lishu Luo, Longxiang Liu, Sijin Wu, Xiaolei Zhu, Xuanliang Zhang, Ge Zhang, Yi Lin, Guang Shi, Chaoyou Fu, Wenhao Huang
cs.AI
Аннотация
По мере стремительного масштабирования моделей рассуждений ключевая роль мультимодальности в человеческом познании становится все более очевидной, что стимулирует растущую потребность в исследовании визуально-центрированных когнитивных поведений. Однако существующие мультимодальные бенчмарки либо чрезмерно акцентируют текстовые рассуждения, либо не способны систематически охватить визуально-центрированные когнитивные поведения, что приводит к недостаточной оценке когнитивных способностей MLLM. Для устранения этого ограничения мы представляем MME-CC (Multi-Modal Evaluation benchmark of Cognitive Capacity) — визуально-обоснованный бенчмарк, который организует 11 репрезентативных задач рассуждений в три фундаментальные категории визуальной информации: пространственные, геометрические и основанные на знаниях рассуждения, и предоставляет детализированный анализ когнитивных способностей MLLM по этим направлениям. На основе MME-CC мы провели масштабные эксперименты с 16 репрезентативными MLLM. Наше исследование показывает, что закрытые модели в настоящее время лидируют в общем зачете (например, 42.66 у Gemini-2.5-Pro против 30.45 у GLM-4.5V), в то время как пространственные и геометрические рассуждения остаются в целом слабыми (≤30%). Мы также выявили типичные ошибки, включая ошибки ориентации, хрупкое сохранение идентичности между видами и слабое следование контрфактическим инструкциям, и наблюдали, что Chain-of-Thought обычно следует трехэтапному процессу (извлечение → рассуждение → проверка) с сильной зависимостью от визуального извлечения. Мы надеемся, что эта работа послужит катализатором смещения акцентов в сторону рассмотрения когнитивных способностей MLLM как центрального элемента как оценки, так и проектирования моделей.
English
As reasoning models scale rapidly, the essential role of multimodality in
human cognition has come into sharp relief, driving a growing need to probe
vision-centric cognitive behaviors. Yet, existing multimodal benchmarks either
overemphasize textual reasoning or fall short of systematically capturing
vision-centric cognitive behaviors, leaving the cognitive capacity of MLLMs
insufficiently assessed. To address this limitation, we introduce MME-CC
(Multi-Modal Evaluation benchmark of Cognitive Capacity), a vision-grounded
benchmark that organizes 11 representative reasoning tasks into three
fundamental categories of visual information: spatial, geometric, and
knowledge-based reasoning, and provides fine-grained analyses of MLLMs'
cognitive capacity across these dimensions. Based on MME-CC, we conduct
extensive experiments over 16 representative MLLMs. Our study reveals that
closed-source models currently lead overall (e.g., 42.66 for Gemini-2.5-Pro vs.
30.45 for GLM-4.5V), while spatial and geometric reasoning remain broadly weak
(less than or equal to 30%). We further identify common error patterns,
including orientation mistakes, fragile cross-view identity persistence, and
poor adherence to counterfactual instructions, and observe that
Chain-of-Thought typically follows a three-stage process (extract -> reason ->
verify) with heavy reliance on visual extraction. We hope this work catalyzes a
shift toward treating the cognitive capacity of MLLMs as central to both
evaluation and model design.