DCPO: Otimização de Política de Recorte Dinâmico
DCPO: Dynamic Clipping Policy Optimization
September 2, 2025
Autores: Shihui Yang, Chengfeng Dou, Peidong Guo, Kai Lu, Qiang Ju, Fei Deng, Rihui Xin
cs.AI
Resumo
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) surgiu como uma estrutura promissora para aprimorar as capacidades de raciocínio de modelos de linguagem de grande escala. No entanto, abordagens existentes, como o GRPO, frequentemente sofrem com gradientes nulos. Esse problema ocorre principalmente devido a limites fixos de corte para razões de probabilidade em nível de token e à padronização de recompensas idênticas, o que pode levar a atualizações de gradiente ineficazes e subutilização de respostas geradas. Neste trabalho, propomos a Otimização de Política com Corte Dinâmico (DCPO), que introduz uma estratégia de corte dinâmico que ajusta adaptativamente os limites de corte com base em probabilidades prévias específicas de cada token para melhorar a exploração em nível de token, e uma técnica de padronização suave de vantagem que padroniza as recompensas ao longo de etapas cumulativas de treinamento para melhorar a utilização efetiva em nível de resposta das respostas geradas. O DCPO alcançou desempenho de ponta em quatro benchmarks baseados em quatro modelos diferentes. Em particular, o DCPO obteve um Avg@1 de 46,7 sob decodificação gananciosa e um Avg@32 de 38,8 sob amostragem 32 vezes no benchmark AIME24, superando tanto o DAPO (36,7/31,6) quanto o GRPO (36,7/32,1) no modelo Qwen2.5-Math-7B. No benchmark AIME25 baseado no Qwen2.5-14B, o DCPO alcançou um desempenho de (23,3/19,0), superando o GRPO (13,3/10,5) e o DAPO (20,0/15,3). Além disso, o DCPO obteve uma melhoria média de 28% na vantagem não nula em relação ao GRPO em quatro modelos, dobrou a eficiência de treinamento em comparação ao DAPO e reduziu significativamente a taxa de corte de tokens em uma ordem de magnitude em relação ao GRPO e ao DAPO, ao mesmo tempo em que alcançou desempenho superior. Esses resultados destacam a eficácia do DCPO em aproveitar os dados gerados de forma mais eficiente para o aprendizado por reforço em modelos de linguagem de grande escala.
English
Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as a
promising framework for enhancing the reasoning capabilities of large language
models. However, existing approaches such as GRPO often suffer from zero
gradients. This problem arises primarily due to fixed clipping bounds for
token-level probability ratios and the standardization of identical rewards,
which can lead to ineffective gradient updates and underutilization of
generated responses. In this work, we propose Dynamic Clipping Policy
Optimization (DCPO), which introduces a dynamic clipping strategy that
adaptively adjusts the clipping bounds based on token-specific prior
probabilities to enhance token-level exploration, and a smooth advantage
standardization technique that standardizes rewards across cumulative training
steps to improve the response-level effective utilization of generated
responses. DCPO achieved state-of-the-art performance on four benchmarks based
on four different models. In particular, DCPO achieved an Avg@1 of 46.7 under
greedy decoding and an Avg@32 of 38.8 under 32 times sampling on the AIME24
benchmark, surpassing both DAPO (36.7/31.6) and GRPO (36.7/32.1) on the
Qwen2.5-Math-7B model. On the AIME25 benchmark based on Qwen2.5-14B, DCPO
achieves a performance of (23.3/19.0), surpassing GRPO (13.3/10.5) and DAPO
(20.0/15.3). Furthermore, DCPO achieved an average 28% improvement in the
nonzero advantage over GRPO in four models, doubled the training efficiency
over DAPO, and significantly reduced the token clipping ratio by an order of
magnitude compared to both GRPO and DAPO, while achieving superior performance.
These results highlight DCPO's effectiveness in leveraging generated data more
efficiently for reinforcement learning in large language models.