ChatPaper.aiChatPaper

AdaReasoner: 反復的視覚推論のための動的ツールオーケストレーション

AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

January 26, 2026
著者: Mingyang Song, Haoyu Sun, Jiawei Gu, Linjie Li, Luxin Xu, Ranjay Krishna, Yu Cheng
cs.AI

要旨

人間が自身の直接的な能力を超える問題に直面した際、ツールに頼るという行動様式は、マルチモーダル大規模言語モデル(MLLM)における視覚的推論能力を向上させる有望なパラダイムを提供する。したがって、効果的な推論には、新しいツールや新しいタスクに直面した場合でも、どのツールをいつ呼び出し、どのように複数のステップにわたって組み合わせるかを知ることが不可欠である。本論文では、ツール特化的または明示的に監督された行動ではなく、一般的な推論スキルとしてツール使用を学習するマルチモーダルモデル群であるAdaReasonerを提案する。AdaReasonerは以下の要素によって実現されている:(i) モデルに長期的で多段階のツール相互作用を曝すスケーラブルなデータキュレーションパイプライン、(ii) 最終タスクの成功に基づいてツール選択と順序付けを最適化する強化学習アルゴリズムであるTool-GRPO、(iii) ツール使用を動的に調整する適応的学習メカニズム。これらの構成要素が統合されることで、モデルはタスク文脈と中間結果からツールの有用性を推論し、複数ツールの協調や未見ツールへの一般化を可能にする。実験では、AdaReasonerが強力なツール適応性と一般化行動を示す:明示的に訓練されていないにもかかわらず、有益なツールを自律的に採用し、無関係なツールを抑制し、タスク要求に基づいてツール使用頻度を調整する。これらの能力は、困難なベンチマークにおいて最先端の性能に変換され、70億パラメータのベースモデルを平均+24.9%改善し、VSPやJigsawを含む複数のタスクでGPT-5のような強力なプロプライエタリシステムを凌駕する。
English
When humans face problems beyond their immediate capabilities, they rely on tools, providing a promising paradigm for improving visual reasoning in multimodal large language models (MLLMs). Effective reasoning, therefore, hinges on knowing which tools to use, when to invoke them, and how to compose them over multiple steps, even when faced with new tools or new tasks. We introduce AdaReasoner, a family of multimodal models that learn tool use as a general reasoning skill rather than as tool-specific or explicitly supervised behavior. AdaReasoner is enabled by (i) a scalable data curation pipeline exposing models to long-horizon, multi-step tool interactions; (ii) Tool-GRPO, a reinforcement learning algorithm that optimizes tool selection and sequencing based on end-task success; and (iii) an adaptive learning mechanism that dynamically regulates tool usage. Together, these components allow models to infer tool utility from task context and intermediate outcomes, enabling coordination of multiple tools and generalization to unseen tools. Empirically, AdaReasoner exhibits strong tool-adaptive and generalization behaviors: it autonomously adopts beneficial tools, suppresses irrelevant ones, and adjusts tool usage frequency based on task demands, despite never being explicitly trained to do so. These capabilities translate into state-of-the-art performance across challenging benchmarks, improving the 7B base model by +24.9\% on average and surpassing strong proprietary systems such as GPT-5 on multiple tasks, including VSP and Jigsaw.
PDF383January 29, 2026