LLM을 활용한 강화학습 안정화: 공식화와 실제 적용
Stabilizing Reinforcement Learning with LLMs: Formulation and Practices
December 1, 2025
저자: Chujie Zheng, Kai Dang, Bowen Yu, Mingze Li, Huiqiang Jiang, Junrong Lin, Yuqiong Liu, An Yang, Jingren Zhou, Junyang Lin
cs.AI
초록
본 논문은 대규모 언어 모델을 활용한 강화 학습(RL)에 대한 새로운 공식을 제안하며, REINFORCE와 같은 정책 경사 방법에서 실제 시퀀스 수준 보상을 대리 토큰 수준 목적 함수를 통해 최적화할 수 있는 이유와 조건을 설명합니다. 구체적으로, 1차 근사를 통해 이 대리 목적 함수는 훈련-추론 불일치와 정책 부실화가 모두 최소화될 때만 점점 더 유효해짐을 보입니다. 이러한 통찰은 중요도 샘플링 보정, 클리핑, 그리고 특히 전문가 혼합(MoE) 모델을 위한 라우팅 재생과 같이 RL 훈련 안정화에 널리 채택된 여러 기법들의 중요한 역할에 대한 원리 기반 설명을 제공합니다. 총 수십만 GPU 시간에 달하는 30B 규모의 MoE 모델을 이용한 폭넓은 실험을 통해, 온-정책 훈련의 경우 중요도 샘플링 보정이 적용된 기본 정책 경사 알고리즘이 가장 높은 훈련 안정성을 달성함을 보여줍니다. 수렴 속도를 높이기 위해 오프-정책 업데이트가 도입될 때는, 클리핑과 라우팅 재생을 결합하여 정책 부실화로 인한 불안정성을 완화하는 것이 필수적입니다. 특히, 일단 훈련이 안정화되면 장기간의 최적화는 콜드-스타트 초기화 방식과 무관하게 일관되게 비슷한 최종 성능을 보입니다. 안정적인 RL 훈련을 위한 본 논문의 통찰과 개발된 방법론이 향후 연구에 기여하기를 바랍니다.
English
This paper proposes a novel formulation for reinforcement learning (RL) with large language models, explaining why and under what conditions the true sequence-level reward can be optimized via a surrogate token-level objective in policy gradient methods such as REINFORCE. Specifically, through a first-order approximation, we show that this surrogate becomes increasingly valid only when both the training-inference discrepancy and policy staleness are minimized. This insight provides a principled explanation for the crucial role of several widely adopted techniques in stabilizing RL training, including importance sampling correction, clipping, and particularly Routing Replay for Mixture-of-Experts (MoE) models. Through extensive experiments with a 30B MoE model totaling hundreds of thousands of GPU hours, we show that for on-policy training, the basic policy gradient algorithm with importance sampling correction achieves the highest training stability. When off-policy updates are introduced to accelerate convergence, combining clipping and Routing Replay becomes essential to mitigate the instability caused by policy staleness. Notably, once training is stabilized, prolonged optimization consistently yields comparable final performance regardless of cold-start initialization. We hope that the shared insights and the developed recipes for stable RL training will facilitate future research.