ChatPaper.aiChatPaper

Stabilisierung von Reinforcement Learning mit LLMs: Formulierung und Praktiken

Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

December 1, 2025
papers.authors: Chujie Zheng, Kai Dang, Bowen Yu, Mingze Li, Huiqiang Jiang, Junrong Lin, Yuqiong Liu, An Yang, Jingren Zhou, Junyang Lin
cs.AI

papers.abstract

Dieses Papier stellt eine neuartige Formulierung für Reinforcement Learning (RL) mit großen Sprachmodellen vor und erläutert, warum und unter welchen Bedingungen die wahre sequenzielle Belohnung über ein surrogates tokenweises Ziel in Policy-Gradient-Methoden wie REINFORCE optimiert werden kann. Insbesondere zeigen wir durch eine Approximation erster Ordnung, dass dieses Surrogat zunehmend gültig wird, nur wenn sowohl die Trainings-Inferenz-Diskrepanz als auch die Policy-Stagnation minimiert werden. Diese Erkenntnis liefert eine prinzipielle Erklärung für die entscheidende Rolle mehrerer weit verbreiteter Techniken zur Stabilisierung des RL-Trainings, einschließlich Importance-Sampling-Korrektur, Clipping und insbesondere Routing Replay für Mixture-of-Experts (MoE)-Modelle. Durch umfangreiche Experimente mit einem 30-Milliarden-Parameter-MoE-Modell mit insgesamt mehreren hunderttausend GPU-Stunden zeigen wir, dass für On-Policy-Training der grundlegende Policy-Gradient-Algorithmus mit Importance-Sampling-Korrektur die höchste Trainingsstabilität erreicht. Wenn Off-Policy-Updates zur Beschleunigung der Konvergenz eingeführt werden, wird die Kombination aus Clipping und Routing Replay entscheidend, um die durch Policy-Stagnation verursachte Instabilität zu mildern. Bemerkenswerterweise führt eine verlängerte Optimierung, sobald das Training stabilisiert ist, unabhängig von der Kaltstart-Initialisierung konsequent zu vergleichbaren Endergebnissen. Wir hoffen, dass die gewonnenen Erkenntnisse und die entwickelten Rezepte für stabiles RL-Training zukünftige Forschung erleichtern werden.
English
This paper proposes a novel formulation for reinforcement learning (RL) with large language models, explaining why and under what conditions the true sequence-level reward can be optimized via a surrogate token-level objective in policy gradient methods such as REINFORCE. Specifically, through a first-order approximation, we show that this surrogate becomes increasingly valid only when both the training-inference discrepancy and policy staleness are minimized. This insight provides a principled explanation for the crucial role of several widely adopted techniques in stabilizing RL training, including importance sampling correction, clipping, and particularly Routing Replay for Mixture-of-Experts (MoE) models. Through extensive experiments with a 30B MoE model totaling hundreds of thousands of GPU hours, we show that for on-policy training, the basic policy gradient algorithm with importance sampling correction achieves the highest training stability. When off-policy updates are introduced to accelerate convergence, combining clipping and Routing Replay becomes essential to mitigate the instability caused by policy staleness. Notably, once training is stabilized, prolonged optimization consistently yields comparable final performance regardless of cold-start initialization. We hope that the shared insights and the developed recipes for stable RL training will facilitate future research.
PDF491December 3, 2025