RL On-Policy con Baseline Ottimale della Ricompensa
On-Policy RL with Optimal Reward Baseline
May 29, 2025
Autori: Yaru Hao, Li Dong, Xun Wu, Shaohan Huang, Zewen Chi, Furu Wei
cs.AI
Abstract
Gli algoritmi di apprendimento per rinforzo sono fondamentali per allineare i grandi modelli linguistici alle preferenze umane e per potenziare le loro capacità di ragionamento. Tuttavia, gli attuali algoritmi di apprendimento per rinforzo spesso soffrono di instabilità durante l'addestramento a causa di vincoli on-policy troppo laschi e di inefficienza computazionale dovuta a modelli ausiliari. In questo lavoro, proponiamo On-Policy RL con Baseline Ottimale della Ricompensa (OPO), un nuovo e semplificato algoritmo di apprendimento per rinforzo progettato per affrontare queste sfide. OPO enfatizza l'importanza di un addestramento on-policy esatto, che empiricamente stabilizza il processo di addestramento e migliora l'esplorazione. Inoltre, OPO introduce la baseline ottimale della ricompensa che teoricamente minimizza la varianza del gradiente. Valutiamo OPO su benchmark di ragionamento matematico. I risultati dimostrano la sua prestazione superiore e la stabilità dell'addestramento senza l'uso di modelli aggiuntivi o termini di regolarizzazione. Inoltre, OPO ottiene minori spostamenti della politica e un'entropia dell'output più elevata, incoraggiando risposte più diversificate e meno ripetitive. Questi risultati evidenziano OPO come una direzione promettente per un apprendimento per rinforzo stabile ed efficace nei compiti di allineamento e ragionamento dei grandi modelli linguistici. L'implementazione è disponibile all'indirizzo https://github.com/microsoft/LMOps/tree/main/opo.
English
Reinforcement learning algorithms are fundamental to align large language
models with human preferences and to enhance their reasoning capabilities.
However, current reinforcement learning algorithms often suffer from training
instability due to loose on-policy constraints and computational inefficiency
due to auxiliary models. In this work, we propose On-Policy RL with Optimal
reward baseline (OPO), a novel and simplified reinforcement learning algorithm
designed to address these challenges. OPO emphasizes the importance of exact
on-policy training, which empirically stabilizes the training process and
enhances exploration. Moreover, OPO introduces the optimal reward baseline that
theoretically minimizes gradient variance. We evaluate OPO on mathematical
reasoning benchmarks. The results demonstrate its superior performance and
training stability without additional models or regularization terms.
Furthermore, OPO achieves lower policy shifts and higher output entropy,
encouraging more diverse and less repetitive responses. These results highlight
OPO as a promising direction for stable and effective reinforcement learning in
large language model alignment and reasoning tasks. The implementation is
provided at https://github.com/microsoft/LMOps/tree/main/opo.