ChatPaper.aiChatPaper

Agentic-MME: エージェント能力がマルチモーダル知能にもたらす真の価値とは?

Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

April 3, 2026
著者: Qianshan Wei, Yishan Yang, Siyi Wang, Jinglin Chen, Binyu Wang, Jiaming Wang, Shuang Chen, Zechen Li, Yang Shi, Yuqi Tang, Weining Wang, Yi Yu, Chaoyou Fu, Qi Li, Yi-Fan Zhang
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLM)は、視覚的拡張(ビジュアルツールの呼び出し)と知識拡張(オープンウェブ検索)を通じて問題を解決する、受動的観察主体から能動的エージェントへと進化しつつあります。しかし既存の評価手法には、柔軟なツール連携の欠如、視覚ツールと検索ツールの個別評価、最終回答のみに依拠した評価といった課題があります。このため、ツールが実際に呼び出されたか、適切に適用されたか、効率的に使用されたかを検証できません。これらの課題に対処するため、我々はマルチモーダルエージェント能力評価のためのプロセス検証型ベンチマーク「Agentic-MME」を提案します。本ベンチマークは6領域・3難易度にわたる418の実世界タスクを包含し、能力の統合的な評価を可能にします。特徴として、2,000以上に及ぶ段階的チェックポイントを有し、1タスクあたり平均10人時以上の手動アノテーションを実施しました。各タスクには、サンドボックス化されたコードとAPIをサポートする統一評価フレームワークに加え、S軸とV軸の二軸に沿って段階的チェックポイントが付与された人間の参照軌道が付属します。真のプロセスレベル検証を実現するため、最終回答だけでなく細粒度の中間状態を監査し、人間の軌道に対する「過剰思考」指標で効率性を定量化します。実験結果では、最高性能モデルであるGemini3-proが56.3%の総合精度を達成する一方、Level-3タスクでは23.0%に大幅に低下し、実世界のマルチモーダルエージェント問題解決の難易度の高さが示されました。
English
Multimodal Large Language Models (MLLMs) are evolving from passive observers into active agents, solving problems through Visual Expansion (invoking visual tools) and Knowledge Expansion (open-web search). However, existing evaluations fall short: they lack flexible tool integration, test visual and search tools separately, and evaluate primarily by final answers. Consequently, they cannot verify if tools were actually invoked, applied correctly, or used efficiently. To address this, we introduce Agentic-MME, a process-verified benchmark for Multimodal Agentic Capabilities. It contains 418 real-world tasks across 6 domains and 3 difficulty levels to evaluate capability synergy, featuring over 2,000 stepwise checkpoints that average 10+ person-hours of manual annotation per task. Each task includes a unified evaluation framework supporting sandboxed code and APIs, alongside a human reference trajectory annotated with stepwise checkpoints along dual-axis: S-axis and V-axis. To enable true process-level verification, we audit fine-grained intermediate states rather than just final answers, and quantify efficiency via an overthinking metric relative to human trajectories. Experimental results show the best model, Gemini3-pro, achieves 56.3% overall accuracy, which falls significantly to 23.0% on Level-3 tasks, underscoring the difficulty of real-world multimodal agentic problem solving.
PDF211April 7, 2026