MME-CoT:推論品質、頑健性、効率における大規模マルチモーダルモデルにおけるChain-of-Thoughtのベンチマーク化
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency
February 13, 2025
著者: Dongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanwei Li, Yu Qi, Xinyan Chen, Liuhui Wang, Jianhan Jin, Claire Guo, Shen Yan, Bo Zhang, Chaoyou Fu, Peng Gao, Hongsheng Li
cs.AI
要旨
Chain-of-Thought(CoT)による質問への回答は、大規模言語モデル(LLMs)の推論能力を大幅に向上させましたが、大規模多モーダルモデル(LMMs)への影響はまだ体系的な評価や詳細な調査が不足しています。本論文では、6つのドメイン(数学、科学、OCR、論理、時空間、一般シーン)を網羅するLMMsのCoT推論パフォーマンスを評価する専門ベンチマークであるMME-CoTを紹介します。この領域における初の包括的な研究として、推論品質、堅牢性、効率を細かいレベルで評価する3つの新しいメトリクスを組み込んだ徹底的な評価スイートを提案します。厳選された高品質データと独自の評価戦略を活用し、最先端のLMMsについて詳細な分析を行い、いくつかの重要な洞察を明らかにします。1)反射メカニズムを持つモデルは優れたCoT品質を示し、Kimi k1.5がGPT-4oを上回り、最高品質の結果を示すことができること;2)CoTプロンプトはしばしば知覚重視のタスクでLMMのパフォーマンスを低下させる傾向があり、潜在的に有害な過剰思考行動を示唆すること;3)CoT品質が高い一方で、反射を備えたLMMは通常の応答および自己修正段階の両方で著しい効率性の欠如が見られます。MME-CoTがLMMsにおける多モーダル推論の進歩の基盤となることを期待しています。プロジェクトページ:https://mmecot.github.io/
English
Answering questions with Chain-of-Thought (CoT) has significantly enhanced
the reasoning capabilities of Large Language Models (LLMs), yet its impact on
Large Multimodal Models (LMMs) still lacks a systematic assessment and in-depth
investigation. In this paper, we introduce MME-CoT, a specialized benchmark
evaluating the CoT reasoning performance of LMMs, spanning six domains: math,
science, OCR, logic, space-time, and general scenes. As the first comprehensive
study in this area, we propose a thorough evaluation suite incorporating three
novel metrics that assess the reasoning quality, robustness, and efficiency at
a fine-grained level. Leveraging curated high-quality data and a unique
evaluation strategy, we conduct an in-depth analysis of state-of-the-art LMMs,
uncovering several key insights: 1) Models with reflection mechanism
demonstrate a superior CoT quality, with Kimi k1.5 outperforming GPT-4o and
demonstrating the highest quality results; 2) CoT prompting often degrades LMM
performance on perception-heavy tasks, suggesting a potentially harmful
overthinking behavior; and 3) Although the CoT quality is high, LMMs with
reflection exhibit significant inefficiency in both normal response and
self-correction phases. We hope MME-CoT serves as a foundation for advancing
multimodal reasoning in LMMs. Project Page: https://mmecot.github.io/Summary
AI-Generated Summary