大規模言語モデルによる強化学習の安定化:定式化と実践
Stabilizing Reinforcement Learning with LLMs: Formulation and Practices
December 1, 2025
著者: Chujie Zheng, Kai Dang, Bowen Yu, Mingze Li, Huiqiang Jiang, Junrong Lin, Yuqiong Liu, An Yang, Jingren Zhou, Junyang Lin
cs.AI
要旨
本論文は、大規模言語モデルを用いた強化学習(RL)における新たな定式化を提案し、ポリシー勾配法(REINFORCEなど)において、真の系列レベル報酬が代理トークンレベル目的関数を通じて最適化される理由と条件を説明する。具体的には、一次近似を通じて、この代理目的関数が有効となるのは、学習と推論の乖離およびポリシーの陳腐化の両方が最小化された場合に限り、その正当性が高まることを示す。この知見は、重要度サンプリング補正、クリッピング、特にMixture-of-Experts(MoE)モデルにおけるRouting Replayなど、RL学習を安定化させる広く採用されている技術の重要性を原理的に説明するものである。合計数十万GPU時間に及ぶ30B MoEモデルを用いた大規模実験を通じて、オン方策学習においては、重要度サンプリング補正を組み込んだ基本ポリシー勾配アルゴリズムが最高の学習安定性を達成することを示す。収束を加速させるためにオフ方策更新を導入する場合、クリッピングとRouting Replayの組み合わせが、ポリシーの陳腐化による不安定性を緩和するために不可欠となる。特に、学習が安定化された後は、長時間の最適化により、コールドスタート初期化の違いに関わらず一貫して同等の最終性能が得られる。我々は、共有された知見と安定したRL学習のための確立された手法が、将来の研究を促進することを期待する。
English
This paper proposes a novel formulation for reinforcement learning (RL) with large language models, explaining why and under what conditions the true sequence-level reward can be optimized via a surrogate token-level objective in policy gradient methods such as REINFORCE. Specifically, through a first-order approximation, we show that this surrogate becomes increasingly valid only when both the training-inference discrepancy and policy staleness are minimized. This insight provides a principled explanation for the crucial role of several widely adopted techniques in stabilizing RL training, including importance sampling correction, clipping, and particularly Routing Replay for Mixture-of-Experts (MoE) models. Through extensive experiments with a 30B MoE model totaling hundreds of thousands of GPU hours, we show that for on-policy training, the basic policy gradient algorithm with importance sampling correction achieves the highest training stability. When off-policy updates are introduced to accelerate convergence, combining clipping and Routing Replay becomes essential to mitigate the instability caused by policy staleness. Notably, once training is stabilized, prolonged optimization consistently yields comparable final performance regardless of cold-start initialization. We hope that the shared insights and the developed recipes for stable RL training will facilitate future research.