ChatPaper.aiChatPaper

CPGD: Rumo a um Aprendizado por Reforço Baseado em Regras Estável para Modelos de Linguagem

CPGD: Toward Stable Rule-based Reinforcement Learning for Language Models

May 18, 2025
Autores: Zongkai Liu, Fanqing Meng, Lingxiao Du, Zhixiang Zhou, Chao Yu, Wenqi Shao, Qiaosheng Zhang
cs.AI

Resumo

Avanços recentes no aprendizado por reforço baseado em regras (RL) melhoraram significativamente a capacidade de raciocínio de modelos de linguagem (LMs) com recompensas baseadas em regras. No entanto, os métodos existentes de RL — como GRPO, REINFORCE++ e RLOO — frequentemente sofrem com instabilidade no treinamento, onde grandes atualizações de política e recorte inadequado podem levar ao colapso do treinamento. Para resolver esse problema, propomos o Clipped Policy Gradient Optimization with Policy Drift (CPGD), um novo algoritmo projetado para estabilizar o aprendizado de políticas em LMs. O CPGD introduz uma restrição de deriva de política baseada na divergência KL para regularizar dinamicamente as atualizações de política e utiliza um mecanismo de recorte no logaritmo da razão para evitar atualizações excessivas de política. Fornecemos justificativa teórica para o CPGD e demonstramos por meio de análise empírica que ele mitiga a instabilidade observada em abordagens anteriores. Além disso, mostramos que o CPGD melhora significativamente o desempenho enquanto mantém a estabilidade do treinamento. Nossa implementação equilibra rigor teórico com usabilidade prática, oferecendo uma alternativa robusta para RL no pós-treinamento de LMs. Disponibilizamos nosso código em https://github.com/ModalMinds/MM-EUREKA.
English
Recent advances in rule-based reinforcement learning (RL) have significantly improved the reasoning capability of language models (LMs) with rule-based rewards. However, existing RL methods -- such as GRPO, REINFORCE++, and RLOO -- often suffer from training instability, where large policy updates and improper clipping can lead to training collapse. To address this issue, we propose Clipped Policy Gradient Optimization with Policy Drift (CPGD), a novel algorithm designed to stabilize policy learning in LMs. CPGD introduces a policy drift constraint based on KL divergence to dynamically regularize policy updates, and leverages a clip mechanism on the logarithm of the ratio to prevent excessive policy updates. We provide theoretical justification for CPGD and demonstrate through empirical analysis that it mitigates the instability observed in prior approaches. Furthermore, we show that CPGD significantly improves performance while maintaining training stability. Our implementation balances theoretical rigor with practical usability, offering a robust alternative for RL in the post-training of LMs. We release our code at https://github.com/ModalMinds/MM-EUREKA.
PDF242May 20, 2025