エージェント推論における強化学習の解明
Demystifying Reinforcement Learning in Agentic Reasoning
October 13, 2025
著者: Zhaochen Yu, Ling Yang, Jiaru Zou, Shuicheng Yan, Mengdi Wang
cs.AI
要旨
最近、エージェント型強化学習(agentic RL)の出現により、強化学習(RL)が大規模言語モデル(LLM)のエージェント的推論能力を効果的に向上させることが示されましたが、その主要な設計原則と最適な実践方法はまだ明確ではありません。本研究では、データ、アルゴリズム、推論モードという3つの主要な視点から、エージェント的推論における強化学習を解明するための包括的かつ体系的な調査を行いました。私たちの重要な洞察は以下の通りです:(i) 合成された軌跡を実際のエンドツーエンドのツール使用軌跡に置き換えることで、より強力な教師あり微調整(SFT)の初期化が可能となり、高多様性でモデルを意識したデータセットが探索を維持し、RLの性能を著しく向上させます。(ii) エージェント型RLにおいては、クリップ上限の設定、過剰な報酬形成、適切なポリシーエントロピーの維持など、探索に適した技術が重要であり、これらが訓練効率を向上させます。(iii) ツール呼び出しを少なくする熟慮型戦略は、頻繁なツール呼び出しや冗長な自己推論を上回り、ツールの効率と最終的な精度を向上させます。これらのシンプルな実践を組み合わせることで、エージェント的推論と訓練効率が一貫して向上し、小さなモデルでも難しいベンチマークで強い結果を達成し、将来のエージェント型RL研究のための実用的なベースラインを確立しました。これらの経験的洞察に加えて、私たちは高品質な実際のエンドツーエンドのエージェント型SFTデータセットと高品質なRLデータセットを提供し、AIME2024/AIME2025、GPQA-Diamond、LiveCodeBench-v6を含む4つの難しいベンチマークにおいて、LLMのエージェント的推論能力を向上させるための私たちの洞察の有効性を実証しました。私たちのレシピを用いることで、4Bサイズのモデルでも32Bサイズのモデルと比較して優れたエージェント的推論性能を達成できます。コードとモデルは以下をご覧ください:https://github.com/Gen-Verse/Open-AgentRL
English
Recently, the emergence of agentic RL has showcased that RL could also
effectively improve the agentic reasoning ability of LLMs, yet the key design
principles and optimal practices remain unclear. In this work, we conduct a
comprehensive and systematic investigation to demystify reinforcement learning
in agentic reasoning from three key perspectives: data, algorithm, and
reasoning mode. We highlight our key insights: (i) Replacing stitched synthetic
trajectories with real end-to-end tool-use trajectories yields a far stronger
SFT initialization; high-diversity, model-aware datasets sustain exploration
and markedly improve RL performance. (ii) Exploration-friendly techniques are
crucial for agentic RL, such as clip higher, overlong reward shaping, and
maintaining adequate policy entropy could improve the training efficiency.
(iii) A deliberative strategy with fewer tool calls outperforms frequent tool
calls or verbose self-reasoning, improving tool efficiency and final accuracy.
Together, these simple practices consistently enhance agentic reasoning and
training efficiency, achieving strong results on challenging benchmarks with
smaller models, and establishing a practical baseline for future agentic RL
research. Beyond these empirical insights, we further contribute a
high-quality, real end-to-end agentic SFT dataset along with a high-quality RL
dataset, and demonstrate the effectiveness of our insights in boosting the
agentic reasoning ability of LLMs across four challenging benchmarks, including
AIME2024/AIME2025, GPQA-Diamond, and LiveCodeBench-v6. With our recipes,
4B-sized models could also achieve superior agentic reasoning performance
compared to 32B-sized models. Code and models:
https://github.com/Gen-Verse/Open-AgentRL