Estabilizando o Aprendizado por Reforço com LLMs: Formulação e Práticas
Stabilizing Reinforcement Learning with LLMs: Formulation and Practices
December 1, 2025
Autores: Chujie Zheng, Kai Dang, Bowen Yu, Mingze Li, Huiqiang Jiang, Junrong Lin, Yuqiong Liu, An Yang, Jingren Zhou, Junyang Lin
cs.AI
Resumo
Este artigo propõe uma nova formulação para aprendizagem por reforço (RL) com grandes modelos de linguagem, explicando por que e sob quais condições a recompensa real a nível de sequência pode ser otimizada através de um objetivo substituto a nível de *token* em métodos de gradiente de política, como o REINFORCE. Especificamente, através de uma aproximação de primeira ordem, demonstramos que este substituto se torna progressivamente válido apenas quando tanto a discrepância treino-inferência quanto a estagnação da política são minimizadas. Este insight fornece uma explicação fundamentada para o papel crucial de várias técnicas amplamente adotadas na estabilização do treino de RL, incluindo correção de amostragem por importância, *clipping* e, particularmente, o *Routing Replay* para modelos de Mistura de Especialistas (MoE). Através de extensivos experimentos com um modelo MoE de 30B, totalizando centenas de milhares de horas de GPU, mostramos que, para o treino *on-policy*, o algoritmo básico de gradiente de política com correção de amostragem por importância atinge a maior estabilidade de treino. Quando atualizações *off-policy* são introduzidas para acelerar a convergência, combinar *clipping* e *Routing Replay* torna-se essencial para mitigar a instabilidade causada pela estagnação da política. Notavelmente, uma vez que o treino é estabilizado, a otimização prolongada produz consistentemente desempenho final comparável, independentemente da inicialização a partir do zero. Esperamos que os insights partilhados e as metodologias desenvolvidas para um treino de RL estável facilitem pesquisas futuras.
English
This paper proposes a novel formulation for reinforcement learning (RL) with large language models, explaining why and under what conditions the true sequence-level reward can be optimized via a surrogate token-level objective in policy gradient methods such as REINFORCE. Specifically, through a first-order approximation, we show that this surrogate becomes increasingly valid only when both the training-inference discrepancy and policy staleness are minimized. This insight provides a principled explanation for the crucial role of several widely adopted techniques in stabilizing RL training, including importance sampling correction, clipping, and particularly Routing Replay for Mixture-of-Experts (MoE) models. Through extensive experiments with a 30B MoE model totaling hundreds of thousands of GPU hours, we show that for on-policy training, the basic policy gradient algorithm with importance sampling correction achieves the highest training stability. When off-policy updates are introduced to accelerate convergence, combining clipping and Routing Replay becomes essential to mitigate the instability caused by policy staleness. Notably, once training is stabilized, prolonged optimization consistently yields comparable final performance regardless of cold-start initialization. We hope that the shared insights and the developed recipes for stable RL training will facilitate future research.