CPGD: Verso un Apprendimento per Rinforzo Basato su Regole Stabile per Modelli Linguistici

Abstract

I recenti progressi nell'apprendimento per rinforzo basato su regole (RL) hanno migliorato significativamente la capacità di ragionamento dei modelli linguistici (LMs) attraverso ricompense basate su regole. Tuttavia, i metodi RL esistenti — come GRPO, REINFORCE++ e RLOO — spesso soffrono di instabilità durante l'addestramento, dove aggiornamenti eccessivi della politica e un clipping improprio possono portare al collasso del training. Per affrontare questo problema, proponiamo l'**Ottimizzazione del Gradiente della Politica con Clipping e Deriva della Politica (CPGD)**, un nuovo algoritmo progettato per stabilizzare l'apprendimento della politica nei LMs. CPGD introduce un vincolo di deriva della politica basato sulla divergenza KL per regolarizzare dinamicamente gli aggiornamenti della politica e utilizza un meccanismo di clipping sul logaritmo del rapporto per prevenire aggiornamenti eccessivi. Forniamo una giustificazione teorica per CPGD e dimostriamo attraverso analisi empirica che mitiga l'instabilità osservata negli approcci precedenti. Inoltre, mostriamo che CPGD migliora significativamente le prestazioni mantenendo la stabilità del training. La nostra implementazione bilancia il rigore teorico con l'usabilità pratica, offrendo un'alternativa robusta per l'RL nel post-training dei LMs. Rilasciamo il nostro codice su https://github.com/ModalMinds/MM-EUREKA.

English

Recent advances in rule-based reinforcement learning (RL) have significantly improved the reasoning capability of language models (LMs) with rule-based rewards. However, existing RL methods -- such as GRPO, REINFORCE++, and RLOO -- often suffer from training instability, where large policy updates and improper clipping can lead to training collapse. To address this issue, we propose Clipped Policy Gradient Optimization with Policy Drift (CPGD), a novel algorithm designed to stabilize policy learning in LMs. CPGD introduces a policy drift constraint based on KL divergence to dynamically regularize policy updates, and leverages a clip mechanism on the logarithm of the ratio to prevent excessive policy updates. We provide theoretical justification for CPGD and demonstrate through empirical analysis that it mitigates the instability observed in prior approaches. Furthermore, we show that CPGD significantly improves performance while maintaining training stability. Our implementation balances theoretical rigor with practical usability, offering a robust alternative for RL in the post-training of LMs. We release our code at https://github.com/ModalMinds/MM-EUREKA.

CPGD: Verso un Apprendimento per Rinforzo Basato su Regole Stabile per Modelli Linguistici

CPGD: Toward Stable Rule-based Reinforcement Learning for Language Models

Abstract

Support