ChatPaper.aiChatPaper

CPGD: Auf dem Weg zu stabilem regelbasiertem Reinforcement Learning für Sprachmodelle

CPGD: Toward Stable Rule-based Reinforcement Learning for Language Models

May 18, 2025
Autoren: Zongkai Liu, Fanqing Meng, Lingxiao Du, Zhixiang Zhou, Chao Yu, Wenqi Shao, Qiaosheng Zhang
cs.AI

Zusammenfassung

Jüngste Fortschritte im regelbasierten Reinforcement Learning (RL) haben die Fähigkeit von Sprachmodellen (LMs) zur logischen Schlussfolgerung durch regelbasierte Belohnungen erheblich verbessert. Allerdings leiden bestehende RL-Methoden – wie GRPO, REINFORCE++ und RLOO – häufig unter Instabilität während des Trainings, bei der große Aktualisierungen der Policy und unangemessenes Clipping zu einem Zusammenbruch des Trainings führen können. Um dieses Problem zu lösen, schlagen wir Clipped Policy Gradient Optimization with Policy Drift (CPGD) vor, einen neuartigen Algorithmus, der darauf abzielt, das Policy-Lernen in LMs zu stabilisieren. CPGD führt eine Policy-Drift-Beschränkung basierend auf der KL-Divergenz ein, um Policy-Aktualisierungen dynamisch zu regularisieren, und nutzt einen Clip-Mechanismus für den Logarithmus des Verhältnisses, um übermäßige Policy-Aktualisierungen zu verhindern. Wir liefern eine theoretische Begründung für CPGD und zeigen durch empirische Analysen, dass es die Instabilität, die bei früheren Ansätzen beobachtet wurde, reduziert. Darüber hinaus demonstrieren wir, dass CPGD die Leistung signifikant verbessert, während die Trainingsstabilität erhalten bleibt. Unsere Implementierung vereint theoretische Strenge mit praktischer Anwendbarkeit und bietet eine robuste Alternative für RL im Post-Training von LMs. Wir veröffentlichen unseren Code unter https://github.com/ModalMinds/MM-EUREKA.
English
Recent advances in rule-based reinforcement learning (RL) have significantly improved the reasoning capability of language models (LMs) with rule-based rewards. However, existing RL methods -- such as GRPO, REINFORCE++, and RLOO -- often suffer from training instability, where large policy updates and improper clipping can lead to training collapse. To address this issue, we propose Clipped Policy Gradient Optimization with Policy Drift (CPGD), a novel algorithm designed to stabilize policy learning in LMs. CPGD introduces a policy drift constraint based on KL divergence to dynamically regularize policy updates, and leverages a clip mechanism on the logarithm of the ratio to prevent excessive policy updates. We provide theoretical justification for CPGD and demonstrate through empirical analysis that it mitigates the instability observed in prior approaches. Furthermore, we show that CPGD significantly improves performance while maintaining training stability. Our implementation balances theoretical rigor with practical usability, offering a robust alternative for RL in the post-training of LMs. We release our code at https://github.com/ModalMinds/MM-EUREKA.

Summary

AI-Generated Summary

PDF202May 20, 2025