CPGD : Vers un apprentissage par renforcement basé sur des règles stables pour les modèles de langage
CPGD: Toward Stable Rule-based Reinforcement Learning for Language Models
May 18, 2025
Auteurs: Zongkai Liu, Fanqing Meng, Lingxiao Du, Zhixiang Zhou, Chao Yu, Wenqi Shao, Qiaosheng Zhang
cs.AI
Résumé
Les avancées récentes dans l'apprentissage par renforcement basé sur des règles (RL) ont considérablement amélioré la capacité de raisonnement des modèles de langage (LMs) grâce à des récompenses basées sur des règles. Cependant, les méthodes de RL existantes — telles que GRPO, REINFORCE++ et RLOO — souffrent souvent d'une instabilité lors de l'entraînement, où des mises à jour de politique trop importantes et un écrêtage inapproprié peuvent entraîner un effondrement de l'entraînement. Pour résoudre ce problème, nous proposons l'Optimisation du Gradient de Politique Écrêtée avec Dérive de Politique (CPGD), un nouvel algorithme conçu pour stabiliser l'apprentissage des politiques dans les LMs. CPGD introduit une contrainte de dérive de politique basée sur la divergence de KL pour régulariser dynamiquement les mises à jour de politique, et utilise un mécanisme d'écrêtage sur le logarithme du ratio pour éviter des mises à jour excessives de la politique. Nous fournissons une justification théorique pour CPGD et démontrons par une analyse empirique qu'il atténue l'instabilité observée dans les approches précédentes. De plus, nous montrons que CPGD améliore significativement les performances tout en maintenant la stabilité de l'entraînement. Notre implémentation équilibre la rigueur théorique avec l'utilisabilité pratique, offrant une alternative robuste pour le RL dans le post-entraînement des LMs. Nous mettons notre code à disposition à l'adresse suivante : https://github.com/ModalMinds/MM-EUREKA.
English
Recent advances in rule-based reinforcement learning (RL) have significantly
improved the reasoning capability of language models (LMs) with rule-based
rewards. However, existing RL methods -- such as GRPO, REINFORCE++, and RLOO --
often suffer from training instability, where large policy updates and improper
clipping can lead to training collapse. To address this issue, we propose
Clipped Policy Gradient Optimization with Policy Drift (CPGD), a novel
algorithm designed to stabilize policy learning in LMs. CPGD introduces a
policy drift constraint based on KL divergence to dynamically regularize policy
updates, and leverages a clip mechanism on the logarithm of the ratio to
prevent excessive policy updates. We provide theoretical justification for CPGD
and demonstrate through empirical analysis that it mitigates the instability
observed in prior approaches. Furthermore, we show that CPGD significantly
improves performance while maintaining training stability. Our implementation
balances theoretical rigor with practical usability, offering a robust
alternative for RL in the post-training of LMs. We release our code at
https://github.com/ModalMinds/MM-EUREKA.Summary
AI-Generated Summary