なぜ多段階ツール使用の強化学習は崩壊し、監督信号がそれをどのように修正するのか
Why Multi-Step Tool-Use Reinforcement Learning Collapses and How Supervisory Signals Fix It
June 24, 2026
著者: Yupu Hao, Zhuoran Jin, Huanxuan Liao, Kang Liu, Jun Zhao
cs.AI
要旨
ツール使用により大規模言語モデル(LLM)は複雑なタスクを実行できるようになり、近年のエージェント型強化学習(RL)手法はモデル能力の向上に有望である。しかし、RL単独ではツール使用タスクにおいて不安定性や限定的な改善にとどまることが多い。我々の実験では、一部のモデルで性能が急激に低下し、ツール呼び出し構造が機能しなくなる破滅的崩壊(catastrophic collapse)が観察された。分析の結果、これらの失敗は特定の制御トークンにおける予期せぬ確率スパイクに起因し、構造化された実行を妨げているものの、基礎的なツール使用能力自体は保持されており、特定の形式によって隠蔽されているに過ぎないことが明らかになった。この問題に対処するため、我々はオフポリシー教師信号、ヒントベースのガイダンス、誤った事例の教師信号など多様な教師信号群を体系的に調査し、それらを同期的およびインターリーブ型の訓練方式の双方で適用した。教師ありファインチューニング(SFT)とRLをインターリーブすることで安定性が大幅に向上する一方、形式および内容における分布外(OOD)評価では性能が低下することを発見した。また、学習率の影響や設定間の一般化についても分析を行った。これらの結果は、RLの失敗を理解することの重要性を浮き彫りにし、多様な教師信号が探索的学習を導き、複雑な多段階ツール使用タスクにおけるLLMの堅牢な訓練を可能にすることを示している。コードはhttps://github.com/hypasd-art/Tool-RL-Boxで公開している。
English
Tool use enables large language models (LLMs) to perform complex tasks, and recent agentic reinforcement learning (RL) methods show promise for enhancing model capabilities. However, RL alone often leads to instability or limited gains in tool-use tasks. In our experiments, some models exhibit catastrophic collapse, where performance abruptly drops and tool-invocation structures fail. The analysis reveals that these failures stem from unexpected probability spikes in specific control tokens, disrupting structured execution, yet the underlying tool-use capability remains intact, merely obscured by specific formats. To address this, we systematically investigate a diverse set of supervisory signals, including off-policy supervision, hint-based guidance, erroneous example supervision, and others, applied under both synchronous and interleaved training schemes. We find that interleaving supervised fine-tuning (SFT) with RL substantially improves stability, but exhibits degraded performance under format and content out-of-distribution (OOD) evaluation. We also analyze the impact of learning rates and generalization across settings. These results highlight the importance of understanding RL failures and demonstrate how diverse supervisory signals can guide exploratory learning, enabling robust training of LLMs for complex, multi-step tool-use tasks. Our Code is available at https://github.com/hypasd-art/Tool-RL-Box.