DCPO: Optimización Dinámica de Políticas de Recorte
DCPO: Dynamic Clipping Policy Optimization
September 2, 2025
Autores: Shihui Yang, Chengfeng Dou, Peidong Guo, Kai Lu, Qiang Ju, Fei Deng, Rihui Xin
cs.AI
Resumen
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) ha surgido como un marco prometedor para mejorar las capacidades de razonamiento de los modelos de lenguaje de gran escala. Sin embargo, enfoques existentes como GRPO a menudo sufren de gradientes nulos. Este problema surge principalmente debido a los límites fijos de recorte para las proporciones de probabilidad a nivel de token y la estandarización de recompensas idénticas, lo que puede llevar a actualizaciones de gradiente ineficaces y a una subutilización de las respuestas generadas. En este trabajo, proponemos la Optimización de Política de Recorte Dinámico (DCPO, por sus siglas en inglés), que introduce una estrategia de recorte dinámico que ajusta adaptativamente los límites de recorte basándose en probabilidades previas específicas de cada token para mejorar la exploración a nivel de token, y una técnica de estandarización suave de ventajas que estandariza las recompensas a lo largo de los pasos acumulativos de entrenamiento para mejorar la utilización efectiva de las respuestas generadas a nivel de respuesta. DCPO logró un rendimiento de vanguardia en cuatro benchmarks basados en cuatro modelos diferentes. En particular, DCPO alcanzó un Avg@1 de 46.7 bajo decodificación codiciosa y un Avg@32 de 38.8 bajo muestreo de 32 veces en el benchmark AIME24, superando tanto a DAPO (36.7/31.6) como a GRPO (36.7/32.1) en el modelo Qwen2.5-Math-7B. En el benchmark AIME25 basado en Qwen2.5-14B, DCPO logró un rendimiento de (23.3/19.0), superando a GRPO (13.3/10.5) y DAPO (20.0/15.3). Además, DCPO logró una mejora promedio del 28% en la ventaja no nula sobre GRPO en cuatro modelos, duplicó la eficiencia de entrenamiento en comparación con DAPO y redujo significativamente la proporción de recorte de tokens en un orden de magnitud en comparación con GRPO y DAPO, al mismo tiempo que alcanzó un rendimiento superior. Estos resultados destacan la efectividad de DCPO para aprovechar los datos generados de manera más eficiente en el aprendizaje por refuerzo en modelos de lenguaje de gran escala.
English
Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as a
promising framework for enhancing the reasoning capabilities of large language
models. However, existing approaches such as GRPO often suffer from zero
gradients. This problem arises primarily due to fixed clipping bounds for
token-level probability ratios and the standardization of identical rewards,
which can lead to ineffective gradient updates and underutilization of
generated responses. In this work, we propose Dynamic Clipping Policy
Optimization (DCPO), which introduces a dynamic clipping strategy that
adaptively adjusts the clipping bounds based on token-specific prior
probabilities to enhance token-level exploration, and a smooth advantage
standardization technique that standardizes rewards across cumulative training
steps to improve the response-level effective utilization of generated
responses. DCPO achieved state-of-the-art performance on four benchmarks based
on four different models. In particular, DCPO achieved an Avg@1 of 46.7 under
greedy decoding and an Avg@32 of 38.8 under 32 times sampling on the AIME24
benchmark, surpassing both DAPO (36.7/31.6) and GRPO (36.7/32.1) on the
Qwen2.5-Math-7B model. On the AIME25 benchmark based on Qwen2.5-14B, DCPO
achieves a performance of (23.3/19.0), surpassing GRPO (13.3/10.5) and DAPO
(20.0/15.3). Furthermore, DCPO achieved an average 28% improvement in the
nonzero advantage over GRPO in four models, doubled the training efficiency
over DAPO, and significantly reduced the token clipping ratio by an order of
magnitude compared to both GRPO and DAPO, while achieving superior performance.
These results highlight DCPO's effectiveness in leveraging generated data more
efficiently for reinforcement learning in large language models.