ChatPaper.aiChatPaper

Stabilisatie van Reinforcement Learning met LLM's: Formulering en Praktijken

Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

December 1, 2025
Auteurs: Chujie Zheng, Kai Dang, Bowen Yu, Mingze Li, Huiqiang Jiang, Junrong Lin, Yuqiong Liu, An Yang, Jingren Zhou, Junyang Lin
cs.AI

Samenvatting

Dit artikel introduceert een nieuwe formulering voor reinforcement learning (RL) met grote taalmodellen, waarin wordt uitgelegd waarom en onder welke voorwaarden de werkelijke reeksniveau-beloning kan worden geoptimaliseerd via een surrogaatdoelstelling op tokenniveau in beleidsgradiëntmethoden zoals REINFORCE. Specifiek tonen we door een eerste-orde benadering aan dat dit surrogaat alleen steeds geldiger wordt wanneer zowel de kloof tussen training en inferentie als het beleidsveroudering worden geminimaliseerd. Dit inzicht biedt een principiële verklaring voor de cruciale rol van verschillende veelgebruikte technieken voor het stabiliseren van RL-training, waaronder importantie-steekproefcorrectie, clipping, en in het bijzonder Routing Replay voor Mixture-of-Experts (MoE)-modellen. Door middel van uitgebreide experimenten met een 30B MoE-model, in totaal goed voor honderdduizenden GPU-uren, tonen we aan dat voor on-policy training het basisbeleidsgradiëntalgoritme met importantie-steekproefcorrectie de hoogste trainstabiliteit bereikt. Wanneer off-policy updates worden geïntroduceerd om de convergentie te versnellen, wordt de combinatie van clipping en Routing Replay essentieel om de instabiliteit veroorzaakt door beleidsveroudering te mitigeren. Opmerkelijk is dat eenmaal de training gestabiliseerd is, langdurige optimalisatie consistent vergelijkbare eindprestaties oplevert, ongeacht de koude-startinitialisatie. We hopen dat de gedeelde inzichten en de ontwikkelde recepten voor stabiele RL-training toekomstig onderzoek zullen vergemakkelijken.
English
This paper proposes a novel formulation for reinforcement learning (RL) with large language models, explaining why and under what conditions the true sequence-level reward can be optimized via a surrogate token-level objective in policy gradient methods such as REINFORCE. Specifically, through a first-order approximation, we show that this surrogate becomes increasingly valid only when both the training-inference discrepancy and policy staleness are minimized. This insight provides a principled explanation for the crucial role of several widely adopted techniques in stabilizing RL training, including importance sampling correction, clipping, and particularly Routing Replay for Mixture-of-Experts (MoE) models. Through extensive experiments with a 30B MoE model totaling hundreds of thousands of GPU hours, we show that for on-policy training, the basic policy gradient algorithm with importance sampling correction achieves the highest training stability. When off-policy updates are introduced to accelerate convergence, combining clipping and Routing Replay becomes essential to mitigate the instability caused by policy staleness. Notably, once training is stabilized, prolonged optimization consistently yields comparable final performance regardless of cold-start initialization. We hope that the shared insights and the developed recipes for stable RL training will facilitate future research.
PDF491December 3, 2025