ChatPaper.aiChatPaper

ARM-Thinker: エージェント的ツール利用と視覚的推論によるマルチモーダル生成報酬モデルの強化

ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning

December 4, 2025
著者: Shengyuan Ding, Xinyu Fang, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiangyu Zhao, Haodong Duan, Xiaoyi Dong, Jianze Liang, Bin Wang, Conghui He, Dahua Lin, Jiaqi Wang
cs.AI

要旨

報酬モデルは視覚言語システムを人間の選好に合わせる上で重要であるが、現行のアプローチは幻覚現象、弱い視覚的接地、検証のためのツール活用不能といった課題を抱えており、複雑なマルチモーダル推論タスクにおける信頼性を制限している。本論文ではARM-Thinkerを提案する。これは外部ツール(画像切り抜き、文書ページ検索など)を自律的に起動して判断を検証可能な証拠に基づかせるエージェント型マルチモーダル報酬モデルであり、静的な非対話型の報酬スコアリングを置き換える。これにより、既存の報酬モデルにはない能力である、細粒度の視覚的詳細の検証、複数ページにわたる証拠の相互参照、推論主張の検証が可能となる。ARM-Thinkerは多段階強化学習により、ツール呼び出し判断と評価精度を共同で最適化するように訓練する。エージェント型報酬モデリングを評価するため、細粒度視覚接地(画像レベルツール)、複数ページ文書理解(検索ツール)、指示追従(テキストレベル検証)を評価する3つのベンチマークからなるARMBench-VLを導入した。ARM-Thinkerは報酬モデリングベンチマークで平均16.2%、ツール使用タスクで9.6%の改善を達成し、マルチモーダル数学推論および論理推論ベンチマークにおいてベースラインを上回った。本結果は、エージェント機能が報酬モデルの精度と解釈可能性の両方を大幅に強化することを実証している。
English
Reward models are critical for aligning vision-language systems with human preferences, yet current approaches suffer from hallucination, weak visual grounding, and an inability to use tools for verification, limiting their reliability on complex multimodal reasoning tasks. We present ARM-Thinker, an A}gentic multimodal Reward Model that autonomously invokes external tools (e.g., image cropping, doc page retrieval) to ground judgments in verifiable evidence, replacing static, non-interactive reward scoring. This enables the model to verify fine-grained visual details, cross-reference multi-page evidence, and validate reasoning claims, which are capabilities absent in existing reward models. We train ARM-Thinker with multi-stage reinforcement learning, jointly optimizing tool-calling decisions and judgment accuracy. To evaluate agentic reward modeling, we introduce ARMBench-VL, comprising three benchmarks that assess fine-grained visual grounding (image-level tools), multi-page document understanding (retrieval tools), and instruction following (text-level verification). ARM-Thinker achieves +16.2% average improvement on reward modeling benchmarks, +9.6% on tool-use tasks, and outperforms baselines on multimodal math and logical reasoning benchmarks. Our results demonstrate that agentic capabilities significantly enhance both accuracy and interpretability of reward models.
PDF351December 6, 2025