ChatPaper.aiChatPaper

Stabiliser l'Apprentissage par Renforcement avec les LLM : Formulation et Pratiques

Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

December 1, 2025
papers.authors: Chujie Zheng, Kai Dang, Bowen Yu, Mingze Li, Huiqiang Jiang, Junrong Lin, Yuqiong Liu, An Yang, Jingren Zhou, Junyang Lin
cs.AI

papers.abstract

Ce travail propose une formulation novatrice pour l'apprentissage par renforcement (RL) avec des grands modèles de langage, expliquant pourquoi et sous quelles conditions la récompense séquentielle réelle peut être optimisée via un objectif substitut au niveau des tokens dans les méthodes de gradient de politique telles que REINFORCE. Plus précisément, grâce à une approximation du premier ordre, nous démontrons que ce substitut devient valide uniquement lorsque l'écart entraînement-inférence et la péremption de la politique sont minimisés. Cette analyse fournit une explication fondamentale du rôle crucial de plusieurs techniques largement adoptées pour stabiliser l'entraînement par RL, incluant la correction par échantillonnage préférentiel, l'écrêtage, et particulièrement le Réacheminement par Rejeu (Routing Replay) pour les modèles de type Mixture d'Experts (MoE). À travers des expériences approfondies sur un modèle MoE de 30B totalisant des centaines de milliers d'heures GPU, nous montrons que pour un entraînement sur-politique, l'algorithme de base de gradient de politique avec correction par échantillonnage préférentiel atteint la plus grande stabilité d'entraînement. Lorsque des mises à jour hors-politique sont introduites pour accélérer la convergence, la combinaison de l'écrêtage et du Réacheminement par Rejeu devient essentielle pour atténuer l'instabilité causée par la péremption de la politique. Il est à noter qu'une fois l'entraînement stabilisé, une optimisation prolongée produit systématiquement des performances finales comparables, indépendamment de l'initialisation à froid. Nous espérons que les analyses partagées et les méthodes développées pour un entraînement RL stable faciliteront les recherches futures.
English
This paper proposes a novel formulation for reinforcement learning (RL) with large language models, explaining why and under what conditions the true sequence-level reward can be optimized via a surrogate token-level objective in policy gradient methods such as REINFORCE. Specifically, through a first-order approximation, we show that this surrogate becomes increasingly valid only when both the training-inference discrepancy and policy staleness are minimized. This insight provides a principled explanation for the crucial role of several widely adopted techniques in stabilizing RL training, including importance sampling correction, clipping, and particularly Routing Replay for Mixture-of-Experts (MoE) models. Through extensive experiments with a 30B MoE model totaling hundreds of thousands of GPU hours, we show that for on-policy training, the basic policy gradient algorithm with importance sampling correction achieves the highest training stability. When off-policy updates are introduced to accelerate convergence, combining clipping and Routing Replay becomes essential to mitigate the instability caused by policy staleness. Notably, once training is stabilized, prolonged optimization consistently yields comparable final performance regardless of cold-start initialization. We hope that the shared insights and the developed recipes for stable RL training will facilitate future research.
PDF491December 3, 2025