ChatPaper.aiChatPaper

Estabilización del Aprendizaje por Refuerzo con LLM: Formulación y Prácticas

Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

December 1, 2025
Autores: Chujie Zheng, Kai Dang, Bowen Yu, Mingze Li, Huiqiang Jiang, Junrong Lin, Yuqiong Liu, An Yang, Jingren Zhou, Junyang Lin
cs.AI

Resumen

Este artículo propone una formulación novedosa para el aprendizaje por refuerzo (RL) con modelos de lenguaje extensos, explicando por qué y bajo qué condiciones la recompensa real a nivel de secuencia puede optimizarse mediante un objetivo sustituto a nivel de token en métodos de gradiente de políticas como REINFORCE. Específicamente, mediante una aproximación de primer orden, demostramos que este sustituto se vuelve cada vez más válido solo cuando se minimizan tanto la discrepancia entrenamiento-inferencia como el desfase de la política. Esta perspectiva proporciona una explicación fundamentada del papel crucial de varias técnicas ampliamente adoptadas para estabilizar el entrenamiento de RL, incluyendo la corrección por muestreo de importancia, el recorte y, particularmente, la Reproducción de Enrutamiento para modelos de Mezcla de Expertos (MoE). A través de extensos experimentos con un modelo MoE de 30B que totalizan cientos de miles de horas de GPU, mostramos que para el entrenamiento *on-policy*, el algoritmo básico de gradiente de políticas con corrección por muestreo de importancia logra la mayor estabilidad en el entrenamiento. Cuando se introducen actualizaciones *off-policy* para acelerar la convergencia, la combinación de recorte y Reproducción de Enrutamiento se vuelve esencial para mitigar la inestabilidad causada por el desfase de la política. Cabe destacar que, una vez estabilizado el entrenamiento, la optimización prolongada produce consistentemente un rendimiento final comparable, independientemente de la inicialización desde cero. Esperamos que las perspectivas compartidas y las recetas desarrolladas para un entrenamiento de RL estable faciliten la investigación futura.
English
This paper proposes a novel formulation for reinforcement learning (RL) with large language models, explaining why and under what conditions the true sequence-level reward can be optimized via a surrogate token-level objective in policy gradient methods such as REINFORCE. Specifically, through a first-order approximation, we show that this surrogate becomes increasingly valid only when both the training-inference discrepancy and policy staleness are minimized. This insight provides a principled explanation for the crucial role of several widely adopted techniques in stabilizing RL training, including importance sampling correction, clipping, and particularly Routing Replay for Mixture-of-Experts (MoE) models. Through extensive experiments with a 30B MoE model totaling hundreds of thousands of GPU hours, we show that for on-policy training, the basic policy gradient algorithm with importance sampling correction achieves the highest training stability. When off-policy updates are introduced to accelerate convergence, combining clipping and Routing Replay becomes essential to mitigate the instability caused by policy staleness. Notably, once training is stabilized, prolonged optimization consistently yields comparable final performance regardless of cold-start initialization. We hope that the shared insights and the developed recipes for stable RL training will facilitate future research.
PDF491December 3, 2025