ロープを学び、勝利を信頼せよ:エージェント強化学習における漸進的探索を伴う自己模倣
Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning
September 26, 2025
著者: Yulei Qin, Xiaoyu Tan, Zhengbao He, Gang Li, Haojia Lin, Zongyi Li, Zihan Xu, Yuchen Shi, Siqi Cai, Renting Rui, Shaofei Cai, Yuzheng Cai, Xuan Zhang, Sheng Ye, Ke Li, Xing Sun
cs.AI
要旨
強化学習(Reinforcement Learning, RL)は、長期的で報酬が疎なエージェントタスクにおいて、大規模言語モデル(LLMs)の戦略的ツール使用能力を向上させる主要なパラダイムである。しかし、RLは探索と活用のトレードオフという根本的な課題に直面している。既存の研究では、ポリシーのエントロピーに焦点を当てて探索を促進しているが、このような機械的なエントロピー最大化は、多段階にわたる分布シフトによりRLの訓練不安定性を引き起こしやすい。本論文では、エージェント自身の経験に基づいて、エントロピーの崩壊や暴走的な発散を回避しつつ、漸進的な探索と活用のバランスを実現することを目指す。我々は、SPEARというカリキュラムベースの自己模倣学習(Self-Imitation Learning, SIL)レシピを提案し、エージェント型LLMsの訓練に適用する。これは、自己生成された有望な軌跡をリプレイバッファに保存してオフポリシー更新を行う従来のSILフレームワークを拡張し、段階的にエントロピーのバランスが取れた範囲内でポリシーの進化を導くものである。具体的には、本手法はカリキュラムを導入して探索プロセスを管理し、内在的報酬を用いてスキルレベルの探索を促進し、SILを通じてアクションレベルの探索を容易にする。初期段階では、補助的なツール呼び出し報酬がツール使用スキルの蓄積に重要な役割を果たし、環境フィードバックの未知の分布に広く曝露しながらエントロピーを上昇させる。訓練が進むにつれて、自己模倣が強化され、リプレイされた経験から既存の成功パターンを活用して比較的アクションレベルの探索を行い、無制限なエントロピー増加を抑えつつ解決策の反復を加速する。さらに、訓練を安定化させるため、リプレイバッファ内の経験のアドバンテージを再調整し、ポリシーのドリフトを防ぐ。確率とアドバンテージの共分散が高いトークンのクリッピングなどの正則化を導入し、軌跡レベルのエントロピー制御を通じて過剰な自信を抑制する。
English
Reinforcement learning (RL) is the dominant paradigm for sharpening strategic
tool use capabilities of LLMs on long-horizon, sparsely-rewarded agent tasks,
yet it faces a fundamental challenge of exploration-exploitation trade-off.
Existing studies stimulate exploration through the lens of policy entropy, but
such mechanical entropy maximization is prone to RL training instability due to
the multi-turn distribution shifting. In this paper, we target the progressive
exploration-exploitation balance under the guidance of the agent own
experiences without succumbing to either entropy collapsing or runaway
divergence. We propose SPEAR, a curriculum-based self-imitation learning (SIL)
recipe for training agentic LLMs. It extends the vanilla SIL framework, where a
replay buffer stores self-generated promising trajectories for off-policy
update, by gradually steering the policy evolution within a well-balanced range
of entropy across stages. Specifically, our approach incorporates a curriculum
to manage the exploration process, utilizing intrinsic rewards to foster
skill-level exploration and facilitating action-level exploration through SIL.
At first, the auxiliary tool call reward plays a critical role in the
accumulation of tool-use skills, enabling broad exposure to the unfamiliar
distributions of the environment feedback with an upward entropy trend. As
training progresses, self-imitation gets strengthened to exploit existing
successful patterns from replayed experiences for comparative action-level
exploration, accelerating solution iteration without unbounded entropy growth.
To further stabilize training, we recalibrate the advantages of experiences in
the replay buffer to address the potential policy drift. Reugularizations such
as the clipping of tokens with high covariance between probability and
advantage are introduced to the trajectory-level entropy control to curb
over-confidence.