CPGD: Hacia un Aprendizaje por Refuerzo Basado en Reglas Estable para Modelos de Lenguaje
CPGD: Toward Stable Rule-based Reinforcement Learning for Language Models
May 18, 2025
Autores: Zongkai Liu, Fanqing Meng, Lingxiao Du, Zhixiang Zhou, Chao Yu, Wenqi Shao, Qiaosheng Zhang
cs.AI
Resumen
Los avances recientes en el aprendizaje por refuerzo basado en reglas (RL, por sus siglas en inglés) han mejorado significativamente la capacidad de razonamiento de los modelos de lenguaje (LMs, por sus siglas en inglés) mediante recompensas basadas en reglas. Sin embargo, los métodos existentes de RL —como GRPO, REINFORCE++ y RLOO— suelen presentar inestabilidad durante el entrenamiento, donde actualizaciones excesivas de la política y un recorte inadecuado pueden llevar al colapso del entrenamiento. Para abordar este problema, proponemos el **Optimización de Gradiente de Política con Recorte y Deriva de Política (CPGD, por sus siglas en inglés)**, un algoritmo novedoso diseñado para estabilizar el aprendizaje de políticas en LMs. CPGD introduce una restricción de deriva de política basada en la divergencia de Kullback-Leibler (KL) para regular dinámicamente las actualizaciones de la política, y utiliza un mecanismo de recorte en el logaritmo de la razón para evitar actualizaciones excesivas de la política. Proporcionamos una justificación teórica para CPGD y demostramos mediante análisis empírico que mitiga la inestabilidad observada en enfoques previos. Además, mostramos que CPGD mejora significativamente el rendimiento mientras mantiene la estabilidad del entrenamiento. Nuestra implementación equilibra el rigor teórico con la usabilidad práctica, ofreciendo una alternativa robusta para el RL en el post-entrenamiento de LMs. Publicamos nuestro código en https://github.com/ModalMinds/MM-EUREKA.
English
Recent advances in rule-based reinforcement learning (RL) have significantly
improved the reasoning capability of language models (LMs) with rule-based
rewards. However, existing RL methods -- such as GRPO, REINFORCE++, and RLOO --
often suffer from training instability, where large policy updates and improper
clipping can lead to training collapse. To address this issue, we propose
Clipped Policy Gradient Optimization with Policy Drift (CPGD), a novel
algorithm designed to stabilize policy learning in LMs. CPGD introduces a
policy drift constraint based on KL divergence to dynamically regularize policy
updates, and leverages a clip mechanism on the logarithm of the ratio to
prevent excessive policy updates. We provide theoretical justification for CPGD
and demonstrate through empirical analysis that it mitigates the instability
observed in prior approaches. Furthermore, we show that CPGD significantly
improves performance while maintaining training stability. Our implementation
balances theoretical rigor with practical usability, offering a robust
alternative for RL in the post-training of LMs. We release our code at
https://github.com/ModalMinds/MM-EUREKA.Summary
AI-Generated Summary