CPGD: Naar stabiele regelgebaseerde reinforcement learning voor taalmodellen
CPGD: Toward Stable Rule-based Reinforcement Learning for Language Models
May 18, 2025
Auteurs: Zongkai Liu, Fanqing Meng, Lingxiao Du, Zhixiang Zhou, Chao Yu, Wenqi Shao, Qiaosheng Zhang
cs.AI
Samenvatting
Recente vooruitgang in regelgebaseerd reinforcement learning (RL) heeft de redeneercapaciteit van taalmodelen (LMs) met regelgebaseerde beloningen aanzienlijk verbeterd. Bestaande RL-methoden — zoals GRPO, REINFORCE++ en RLOO — kampen echter vaak met trainingsinstabiliteit, waarbij grote beleidsupdates en onjuist clippen kunnen leiden tot een ineenstorting van de training. Om dit probleem aan te pakken, stellen we Clipped Policy Gradient Optimization with Policy Drift (CPGD) voor, een nieuw algoritme ontworpen om beleidsleren in LMs te stabiliseren. CPGD introduceert een beleidsdriftbeperking gebaseerd op KL-divergentie om beleidsupdates dynamisch te regulariseren, en maakt gebruik van een clipmechanisme op de logaritme van de verhouding om excessieve beleidsupdates te voorkomen. We bieden een theoretische onderbouwing voor CPGD en laten door empirische analyse zien dat het de instabiliteit die bij eerdere benaderingen werd waargenomen, vermindert. Bovendien tonen we aan dat CPGD de prestaties aanzienlijk verbetert terwijl de trainingsstabiliteit behouden blijft. Onze implementatie balanceert theoretische strengheid met praktische bruikbaarheid, en biedt een robuust alternatief voor RL in de na-training van LMs. We hebben onze code vrijgegeven op https://github.com/ModalMinds/MM-EUREKA.
English
Recent advances in rule-based reinforcement learning (RL) have significantly
improved the reasoning capability of language models (LMs) with rule-based
rewards. However, existing RL methods -- such as GRPO, REINFORCE++, and RLOO --
often suffer from training instability, where large policy updates and improper
clipping can lead to training collapse. To address this issue, we propose
Clipped Policy Gradient Optimization with Policy Drift (CPGD), a novel
algorithm designed to stabilize policy learning in LMs. CPGD introduces a
policy drift constraint based on KL divergence to dynamically regularize policy
updates, and leverages a clip mechanism on the logarithm of the ratio to
prevent excessive policy updates. We provide theoretical justification for CPGD
and demonstrate through empirical analysis that it mitigates the instability
observed in prior approaches. Furthermore, we show that CPGD significantly
improves performance while maintaining training stability. Our implementation
balances theoretical rigor with practical usability, offering a robust
alternative for RL in the post-training of LMs. We release our code at
https://github.com/ModalMinds/MM-EUREKA.Summary
AI-Generated Summary