エージェンシック強化学習ポリシー最適化
Agentic Reinforced Policy Optimization
July 26, 2025
著者: Guanting Dong, Hangyu Mao, Kai Ma, Licheng Bao, Yifei Chen, Zhongyuan Wang, Zhongxia Chen, Jiazhen Du, Huiyang Wang, Fuzheng Zhang, Guorui Zhou, Yutao Zhu, Ji-Rong Wen, Zhicheng Dou
cs.AI
要旨
大規模な検証可能な報酬を用いた強化学習(RLVR)は、単一ターンの推論タスクにおいて大規模言語モデル(LLMs)の潜在能力を活用する効果を実証してきました。現実的な推論シナリオでは、LLMsはしばしば外部ツールを利用してタスク解決プロセスを支援することができます。しかし、現在のRLアルゴリズムは、モデルの内在的な長期的推論能力と、複数ターンにわたるツール相互作用の熟練度を適切にバランスさせることができていません。このギャップを埋めるため、我々は複数ターンのLLMベースエージェントの訓練に特化した新しいエージェント型RLアルゴリズムであるAgentic Reinforced Policy Optimization(ARPO)を提案します。予備実験を通じて、LLMsが外部ツールとの相互作用直後に生成されるトークンのエントロピー分布の増加という特徴を持つ高度に不確実な行動を示す傾向があることを観察しました。この観察に基づき、ARPOはエントロピーベースの適応的ロールアウトメカニズムを組み込み、グローバルな軌道サンプリングとステップレベルのサンプリングを動的にバランスさせ、ツール使用後の不確実性が高いステップでの探索を促進します。さらに、利点帰属推定を統合することで、ARPOはLLMsが段階的なツール使用相互作用における利点の差を内在化することを可能にします。計算推論、知識推論、深層探索の領域における13の挑戦的なベンチマークでの実験を通じて、ARPOが軌道レベルのRLアルゴリズムを凌駕する優位性を実証しました。特に、ARPOは既存の手法に必要なツール使用予算の半分のみを使用して性能を向上させ、LLMベースエージェントをリアルタイムの動的環境に適合させるためのスケーラブルなソリューションを提供します。我々のコードとデータセットはhttps://github.com/dongguanting/ARPOで公開されています。
English
Large-scale reinforcement learning with verifiable rewards (RLVR) has
demonstrated its effectiveness in harnessing the potential of large language
models (LLMs) for single-turn reasoning tasks. In realistic reasoning
scenarios, LLMs can often utilize external tools to assist in task-solving
processes. However, current RL algorithms inadequately balance the models'
intrinsic long-horizon reasoning capabilities and their proficiency in
multi-turn tool interactions. To bridge this gap, we propose Agentic Reinforced
Policy Optimization (ARPO), a novel agentic RL algorithm tailored for training
multi-turn LLM-based agents. Through preliminary experiments, we observe that
LLMs tend to exhibit highly uncertain behavior, characterized by an increase in
the entropy distribution of generated tokens, immediately following
interactions with external tools. Motivated by this observation, ARPO
incorporates an entropy-based adaptive rollout mechanism, dynamically balancing
global trajectory sampling and step-level sampling, thereby promoting
exploration at steps with high uncertainty after tool usage. By integrating an
advantage attribution estimation, ARPO enables LLMs to internalize advantage
differences in stepwise tool-use interactions. Our experiments across 13
challenging benchmarks in computational reasoning, knowledge reasoning, and
deep search domains demonstrate ARPO's superiority over trajectory-level RL
algorithms. Remarkably, ARPO achieves improved performance using only half of
the tool-use budget required by existing methods, offering a scalable solution
for aligning LLM-based agents with real-time dynamic environments. Our code and
datasets are released at https://github.com/dongguanting/ARPO