DCPO: Ottimizzazione Dinamica delle Politiche di Clipping
DCPO: Dynamic Clipping Policy Optimization
September 2, 2025
Autori: Shihui Yang, Chengfeng Dou, Peidong Guo, Kai Lu, Qiang Ju, Fei Deng, Rihui Xin
cs.AI
Abstract
Il Reinforcement Learning da Ricompense Verificabili (RLVR) è emerso come un quadro promettente per potenziare le capacità di ragionamento dei grandi modelli linguistici. Tuttavia, approcci esistenti come GRPO spesso soffrono di gradienti nulli. Questo problema deriva principalmente dai limiti fissi di clipping per i rapporti di probabilità a livello di token e dalla standardizzazione di ricompense identiche, che possono portare a aggiornamenti di gradiente inefficaci e a un sottoutilizzo delle risposte generate. In questo lavoro, proponiamo l'Optimizzazione Dinamica della Politica di Clipping (DCPO), che introduce una strategia di clipping dinamica che adatta i limiti di clipping in base alle probabilità a priori specifiche per token per migliorare l'esplorazione a livello di token, e una tecnica di standardizzazione fluida del vantaggio che standardizza le ricompense attraverso i passi cumulativi di addestramento per migliorare l'utilizzo efficace a livello di risposta delle risposte generate. DCPO ha raggiunto prestazioni all'avanguardia su quattro benchmark basati su quattro modelli diversi. In particolare, DCPO ha ottenuto un Avg@1 di 46,7 con decodifica greedy e un Avg@32 di 38,8 con campionamento 32 volte sul benchmark AIME24, superando sia DAPO (36,7/31,6) che GRPO (36,7/32,1) sul modello Qwen2.5-Math-7B. Sul benchmark AIME25 basato su Qwen2.5-14B, DCPO raggiunge una performance di (23,3/19,0), superando GRPO (13,3/10,5) e DAPO (20,0/15,3). Inoltre, DCPO ha ottenuto un miglioramento medio del 28% nel vantaggio non nullo rispetto a GRPO in quattro modelli, ha raddoppiato l'efficienza di addestramento rispetto a DAPO e ha ridotto significativamente il rapporto di clipping dei token di un ordine di grandezza rispetto sia a GRPO che a DAPO, pur raggiungendo prestazioni superiori. Questi risultati evidenziano l'efficacia di DCPO nello sfruttare i dati generati in modo più efficiente per il reinforcement learning nei grandi modelli linguistici.
English
Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as a
promising framework for enhancing the reasoning capabilities of large language
models. However, existing approaches such as GRPO often suffer from zero
gradients. This problem arises primarily due to fixed clipping bounds for
token-level probability ratios and the standardization of identical rewards,
which can lead to ineffective gradient updates and underutilization of
generated responses. In this work, we propose Dynamic Clipping Policy
Optimization (DCPO), which introduces a dynamic clipping strategy that
adaptively adjusts the clipping bounds based on token-specific prior
probabilities to enhance token-level exploration, and a smooth advantage
standardization technique that standardizes rewards across cumulative training
steps to improve the response-level effective utilization of generated
responses. DCPO achieved state-of-the-art performance on four benchmarks based
on four different models. In particular, DCPO achieved an Avg@1 of 46.7 under
greedy decoding and an Avg@32 of 38.8 under 32 times sampling on the AIME24
benchmark, surpassing both DAPO (36.7/31.6) and GRPO (36.7/32.1) on the
Qwen2.5-Math-7B model. On the AIME25 benchmark based on Qwen2.5-14B, DCPO
achieves a performance of (23.3/19.0), surpassing GRPO (13.3/10.5) and DAPO
(20.0/15.3). Furthermore, DCPO achieved an average 28% improvement in the
nonzero advantage over GRPO in four models, doubled the training efficiency
over DAPO, and significantly reduced the token clipping ratio by an order of
magnitude compared to both GRPO and DAPO, while achieving superior performance.
These results highlight DCPO's effectiveness in leveraging generated data more
efficiently for reinforcement learning in large language models.