Stabilizzare l'Apprendimento per Rinforzo con gli LLM: Formulazione e Pratiche
Stabilizing Reinforcement Learning with LLMs: Formulation and Practices
December 1, 2025
Autori: Chujie Zheng, Kai Dang, Bowen Yu, Mingze Li, Huiqiang Jiang, Junrong Lin, Yuqiong Liu, An Yang, Jingren Zhou, Junyang Lin
cs.AI
Abstract
Questo articolo propone una nuova formulazione per l'apprendimento per rinforzo (RL) con modelli linguistici di grandi dimensioni, spiegando il motivo e le condizioni in cui la ricompensa reale a livello di sequenza può essere ottimizzata tramite un obiettivo surrogato a livello di token in metodi di policy gradient come REINFORCE. Nello specifico, attraverso un'approssimazione del primo ordine, dimostriamo che questo surrogato diventa sempre più valido solo quando vengono minimizzati sia la discrepanza addestramento-inferenza che l'obsolescenza della policy. Questa intuizione fornisce una spiegazione principiata per il ruolo cruciale di diverse tecniche ampiamente adottate per stabilizzare l'addestramento RL, inclusi la correzione tramite importance sampling, il clipping e in particolare il Routing Replay per modelli Mixture-of-Experts (MoE). Attraverso esperimenti estesi con un modello MoE da 30B per un totale di centinaia di migliaia di ore di GPU, dimostriamo che per l'addestramento on-policy, l'algoritmo di base di policy gradient con correzione tramite importance sampling raggiunge la massima stabilità di addestramento. Quando vengono introdotti aggiornamenti off-policy per accelerare la convergenza, la combinazione di clipping e Routing Replay diventa essenziale per mitigare l'instabilità causata dall'obsolescenza della policy. È importante notare che una volta stabilizzato l'addestramento, un'ottimizzazione prolungata produce costantemente prestazioni finali comparabili, indipendentemente dall'inizializzazione da cold-start. Confidiamo che le intuizioni condivise e le ricette sviluppate per un addestramento RL stabile possano facilitare la ricerca futura.
English
This paper proposes a novel formulation for reinforcement learning (RL) with large language models, explaining why and under what conditions the true sequence-level reward can be optimized via a surrogate token-level objective in policy gradient methods such as REINFORCE. Specifically, through a first-order approximation, we show that this surrogate becomes increasingly valid only when both the training-inference discrepancy and policy staleness are minimized. This insight provides a principled explanation for the crucial role of several widely adopted techniques in stabilizing RL training, including importance sampling correction, clipping, and particularly Routing Replay for Mixture-of-Experts (MoE) models. Through extensive experiments with a 30B MoE model totaling hundreds of thousands of GPU hours, we show that for on-policy training, the basic policy gradient algorithm with importance sampling correction achieves the highest training stability. When off-policy updates are introduced to accelerate convergence, combining clipping and Routing Replay becomes essential to mitigate the instability caused by policy staleness. Notably, once training is stabilized, prolonged optimization consistently yields comparable final performance regardless of cold-start initialization. We hope that the shared insights and the developed recipes for stable RL training will facilitate future research.