ChatPaper.aiChatPaper

DCPO: Dynamische Clipping-Policy-Optimierung

DCPO: Dynamic Clipping Policy Optimization

September 2, 2025
papers.authors: Shihui Yang, Chengfeng Dou, Peidong Guo, Kai Lu, Qiang Ju, Fei Deng, Rihui Xin
cs.AI

papers.abstract

Reinforcement Learning from Verifiable Rewards (RLVR) hat sich als vielversprechendes Framework zur Verbesserung der Fähigkeiten großer Sprachmodelle im Bereich des logischen Denkens etabliert. Allerdings leiden bestehende Ansätze wie GRPO häufig unter dem Problem von Null-Gradienten. Dieses Problem entsteht hauptsächlich durch feste Clipping-Grenzen für Token-Level-Wahrscheinlichkeitsverhältnisse und die Standardisierung identischer Belohnungen, was zu ineffektiven Gradientenupdates und einer unzureichenden Nutzung generierter Antworten führen kann. In dieser Arbeit schlagen wir Dynamic Clipping Policy Optimization (DCPO) vor, das eine dynamische Clipping-Strategie einführt, die die Clipping-Grenzen basierend auf token-spezifischen Prior-Wahrscheinlichkeiten adaptiv anpasst, um die Token-Level-Exploration zu verbessern, sowie eine glatte Vorteilsstandardisierungstechnik, die Belohnungen über kumulative Trainingsschritte standardisiert, um die effektive Nutzung generierter Antworten auf Antwortebene zu steigern. DCPO erzielte state-of-the-art Leistung auf vier Benchmarks basierend auf vier verschiedenen Modellen. Insbesondere erreichte DCPO einen Avg@1 von 46,7 unter Greedy-Decoding und einen Avg@32 von 38,8 unter 32-facher Stichprobenziehung auf dem AIME24-Benchmark, wobei es sowohl DAPO (36,7/31,6) als auch GRPO (36,7/32,1) auf dem Qwen2.5-Math-7B-Modell übertraf. Auf dem AIME25-Benchmark basierend auf Qwen2.5-14B erreichte DCPO eine Leistung von (23,3/19,0), wobei es GRPO (13,3/10,5) und DAPO (20,0/15,3) übertraf. Darüber hinaus erzielte DCPO eine durchschnittliche Verbesserung von 28 % im nicht-null Vorteil gegenüber GRPO in vier Modellen, verdoppelte die Trainingsleistung gegenüber DAPO und reduzierte das Token-Clipping-Verhältnis im Vergleich zu GRPO und DAPO um eine Größenordnung, während es eine überlegene Leistung erzielte. Diese Ergebnisse unterstreichen die Effektivität von DCPO bei der effizienteren Nutzung generierter Daten für Reinforcement Learning in großen Sprachmodellen.
English
Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as a promising framework for enhancing the reasoning capabilities of large language models. However, existing approaches such as GRPO often suffer from zero gradients. This problem arises primarily due to fixed clipping bounds for token-level probability ratios and the standardization of identical rewards, which can lead to ineffective gradient updates and underutilization of generated responses. In this work, we propose Dynamic Clipping Policy Optimization (DCPO), which introduces a dynamic clipping strategy that adaptively adjusts the clipping bounds based on token-specific prior probabilities to enhance token-level exploration, and a smooth advantage standardization technique that standardizes rewards across cumulative training steps to improve the response-level effective utilization of generated responses. DCPO achieved state-of-the-art performance on four benchmarks based on four different models. In particular, DCPO achieved an Avg@1 of 46.7 under greedy decoding and an Avg@32 of 38.8 under 32 times sampling on the AIME24 benchmark, surpassing both DAPO (36.7/31.6) and GRPO (36.7/32.1) on the Qwen2.5-Math-7B model. On the AIME25 benchmark based on Qwen2.5-14B, DCPO achieves a performance of (23.3/19.0), surpassing GRPO (13.3/10.5) and DAPO (20.0/15.3). Furthermore, DCPO achieved an average 28% improvement in the nonzero advantage over GRPO in four models, doubled the training efficiency over DAPO, and significantly reduced the token clipping ratio by an order of magnitude compared to both GRPO and DAPO, while achieving superior performance. These results highlight DCPO's effectiveness in leveraging generated data more efficiently for reinforcement learning in large language models.
PDF182September 3, 2025