ChatPaper.aiChatPaper

AdaptMMBench: モード選択と推論プロセスにおける適応的マルチモーダル推論のベンチマーク

AdaptMMBench: Benchmarking Adaptive Multimodal Reasoning for Mode Selection and Reasoning Process

February 2, 2026
著者: Xintong Zhang, Xiaowen Zhang, Jongrong Wu, Zhi Gao, Shilin Yan, Zhenxin Diao, Kunpeng Gao, Xuanyan Chen, Yuwei Wu, Yunde Jia, Qing Li
cs.AI

要旨

適応型マルチモーダル推論は、視覚言語モデル(VLM)における有望な分野として登場し、効果性と効率性の両方を高めるために、ツール拡張された視覚推論とテキスト推論とを動的に調節することを目指している。しかし、既存の評価は静的な難易度ラベルと単純化された指標に依存しており、モデル能力の違いに相対的な難易度の動的な性質を捉えられていない。その結果、適応的なモード選択と一般的な性能の区別が曖昧になり、詳細なプロセス分析が軽視されている。本論文では、実世界、OCR、GUI、知識、数学の5領域にわたる適応型マルチモーダル推論の包括的ベンチマークであるAdaptMMBenchを提案する。これは直接的な知覚タスクと複雑な推論タスクの両方を包含する。AdaptMMBenchは、マシュー相関係数(MCC)指標を活用し、モデルの能力限界に基づいてタスク難易度を動的に特定することで、異なる推論モードの選択合理性を評価し、このメタ認知能力を分離する。さらに、AdaptMMBenchは、主要ステップの網羅性、ツールの有効性、計算効率にわたる多次元的なプロセス評価を可能にする。我々の評価により、適応的なモード選択はモデル能力に応じてスケールするものの、最終的な精度からは明らかに分離されていることが明らかになった。逆に、主要ステップの網羅性は性能と一致するが、ツールの有効性はモデルアーキテクチャ間で極めて不均一であることが示された。
English
Adaptive multimodal reasoning has emerged as a promising frontier in Vision-Language Models (VLMs), aiming to dynamically modulate between tool-augmented visual reasoning and text reasoning to enhance both effectiveness and efficiency. However, existing evaluations rely on static difficulty labels and simplistic metrics, which fail to capture the dynamic nature of difficulty relative to varying model capacities. Consequently, they obscure the distinction between adaptive mode selection and general performance while neglecting fine-grained process analyses. In this paper, we propose AdaptMMBench, a comprehensive benchmark for adaptive multimodal reasoning across five domains: real-world, OCR, GUI, knowledge, and math, encompassing both direct perception and complex reasoning tasks. AdaptMMBench utilizes a Matthews Correlation Coefficient (MCC) metric to evaluate the selection rationality of different reasoning modes, isolating this meta-cognition ability by dynamically identifying task difficulties based on models' capability boundaries. Moreover, AdaptMMBench facilitates multi-dimensional process evaluation across key step coverage, tool effectiveness, and computational efficiency. Our evaluation reveals that while adaptive mode selection scales with model capacity, it notably decouples from final accuracy. Conversely, key step coverage aligns with performance, though tool effectiveness remains highly inconsistent across model architectures.
PDF81February 5, 2026