ChatPaper.aiChatPaper

DCPO: Dynamisch Clipping Beleidsoptimalisatie

DCPO: Dynamic Clipping Policy Optimization

September 2, 2025
Auteurs: Shihui Yang, Chengfeng Dou, Peidong Guo, Kai Lu, Qiang Ju, Fei Deng, Rihui Xin
cs.AI

Samenvatting

Reinforcement Learning from Verifiable Rewards (RLVR) is naar voren gekomen als een veelbelovend raamwerk voor het verbeteren van de redeneervaardigheden van grote taalmodelen. Bestaande benaderingen zoals GRPO kampen echter vaak met het probleem van nulgradiënten. Dit probleem ontstaat voornamelijk door vaste afkappunten voor token-niveau waarschijnlijkheidsratio's en de standaardisering van identieke beloningen, wat kan leiden tot ineffectieve gradiëntupdates en onderbenutting van gegenereerde reacties. In dit werk stellen we Dynamic Clipping Policy Optimization (DCPO) voor, dat een dynamische afkappstrategie introduceert die de afkappunten adaptief aanpast op basis van token-specifieke priorwaarschijnlijkheden om token-niveau exploratie te verbeteren, en een vloeiende voordeelstandaardisatietechniek die beloningen standaardiseert over cumulatieve trainingsstappen om de effectieve benutting van gegenereerde reacties op responsniveau te verbeteren. DCPO behaalde state-of-the-art prestaties op vier benchmarks gebaseerd op vier verschillende modellen. In het bijzonder behaalde DCPO een Avg@1 van 46,7 onder greedy decoding en een Avg@32 van 38,8 onder 32-voudige sampling op de AIME24-benchmark, waarmee het zowel DAPO (36,7/31,6) als GRPO (36,7/32,1) overtrof op het Qwen2.5-Math-7B-model. Op de AIME25-benchmark gebaseerd op Qwen2.5-14B behaalt DCPO een prestatie van (23,3/19,0), waarmee het GRPO (13,3/10,5) en DAPO (20,0/15,3) overtreft. Bovendien behaalde DCPO een gemiddelde verbetering van 28% in het niet-nul voordeel ten opzichte van GRPO in vier modellen, verdubbelde het de trainings efficiëntie ten opzichte van DAPO, en verminderde het de token-afkappratio significant met een orde van grootte in vergelijking met zowel GRPO als DAPO, terwijl het superieure prestaties behaalde. Deze resultaten onderstrepen de effectiviteit van DCPO in het efficiënter benutten van gegenereerde data voor reinforcement learning in grote taalmodelen.
English
Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as a promising framework for enhancing the reasoning capabilities of large language models. However, existing approaches such as GRPO often suffer from zero gradients. This problem arises primarily due to fixed clipping bounds for token-level probability ratios and the standardization of identical rewards, which can lead to ineffective gradient updates and underutilization of generated responses. In this work, we propose Dynamic Clipping Policy Optimization (DCPO), which introduces a dynamic clipping strategy that adaptively adjusts the clipping bounds based on token-specific prior probabilities to enhance token-level exploration, and a smooth advantage standardization technique that standardizes rewards across cumulative training steps to improve the response-level effective utilization of generated responses. DCPO achieved state-of-the-art performance on four benchmarks based on four different models. In particular, DCPO achieved an Avg@1 of 46.7 under greedy decoding and an Avg@32 of 38.8 under 32 times sampling on the AIME24 benchmark, surpassing both DAPO (36.7/31.6) and GRPO (36.7/32.1) on the Qwen2.5-Math-7B model. On the AIME25 benchmark based on Qwen2.5-14B, DCPO achieves a performance of (23.3/19.0), surpassing GRPO (13.3/10.5) and DAPO (20.0/15.3). Furthermore, DCPO achieved an average 28% improvement in the nonzero advantage over GRPO in four models, doubled the training efficiency over DAPO, and significantly reduced the token clipping ratio by an order of magnitude compared to both GRPO and DAPO, while achieving superior performance. These results highlight DCPO's effectiveness in leveraging generated data more efficiently for reinforcement learning in large language models.
PDF212September 3, 2025