DCPO : Optimisation Dynamique de la Politique de Découpage
DCPO: Dynamic Clipping Policy Optimization
September 2, 2025
papers.authors: Shihui Yang, Chengfeng Dou, Peidong Guo, Kai Lu, Qiang Ju, Fei Deng, Rihui Xin
cs.AI
papers.abstract
L'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) s'est imposé comme un cadre prometteur pour améliorer les capacités de raisonnement des grands modèles de langage. Cependant, les approches existantes telles que GRPO souffrent souvent de gradients nuls. Ce problème découle principalement des bornes de troncature fixes pour les ratios de probabilité au niveau des tokens et de la standardisation des récompenses identiques, ce qui peut entraîner des mises à jour de gradients inefficaces et une sous-utilisation des réponses générées. Dans ce travail, nous proposons l'Optimisation de Politique par Troncature Dynamique (DCPO), qui introduit une stratégie de troncature dynamique ajustant de manière adaptative les bornes de troncature en fonction des probabilités a priori spécifiques aux tokens pour améliorer l'exploration au niveau des tokens, ainsi qu'une technique de standardisation lissée des avantages qui standardise les récompenses sur les étapes cumulatives d'entraînement pour optimiser l'utilisation effective des réponses générées au niveau des réponses. DCPO a atteint des performances de pointe sur quatre benchmarks basés sur quatre modèles différents. En particulier, DCPO a obtenu un Avg@1 de 46,7 avec un décodage glouton et un Avg@32 de 38,8 avec un échantillonnage 32 fois sur le benchmark AIME24, surpassant à la fois DAPO (36,7/31,6) et GRPO (36,7/32,1) sur le modèle Qwen2.5-Math-7B. Sur le benchmark AIME25 basé sur Qwen2.5-14B, DCPO atteint une performance de (23,3/19,0), dépassant GRPO (13,3/10,5) et DAPO (20,0/15,3). De plus, DCPO a obtenu une amélioration moyenne de 28 % de l'avantage non nul par rapport à GRPO sur quatre modèles, doublé l'efficacité de l'entraînement par rapport à DAPO, et réduit significativement le ratio de troncature des tokens d'un ordre de grandeur par rapport à GRPO et DAPO, tout en atteignant des performances supérieures. Ces résultats mettent en évidence l'efficacité de DCPO à exploiter plus efficacement les données générées pour l'apprentissage par renforcement dans les grands modèles de langage.
English
Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as a
promising framework for enhancing the reasoning capabilities of large language
models. However, existing approaches such as GRPO often suffer from zero
gradients. This problem arises primarily due to fixed clipping bounds for
token-level probability ratios and the standardization of identical rewards,
which can lead to ineffective gradient updates and underutilization of
generated responses. In this work, we propose Dynamic Clipping Policy
Optimization (DCPO), which introduces a dynamic clipping strategy that
adaptively adjusts the clipping bounds based on token-specific prior
probabilities to enhance token-level exploration, and a smooth advantage
standardization technique that standardizes rewards across cumulative training
steps to improve the response-level effective utilization of generated
responses. DCPO achieved state-of-the-art performance on four benchmarks based
on four different models. In particular, DCPO achieved an Avg@1 of 46.7 under
greedy decoding and an Avg@32 of 38.8 under 32 times sampling on the AIME24
benchmark, surpassing both DAPO (36.7/31.6) and GRPO (36.7/32.1) on the
Qwen2.5-Math-7B model. On the AIME25 benchmark based on Qwen2.5-14B, DCPO
achieves a performance of (23.3/19.0), surpassing GRPO (13.3/10.5) and DAPO
(20.0/15.3). Furthermore, DCPO achieved an average 28% improvement in the
nonzero advantage over GRPO in four models, doubled the training efficiency
over DAPO, and significantly reduced the token clipping ratio by an order of
magnitude compared to both GRPO and DAPO, while achieving superior performance.
These results highlight DCPO's effectiveness in leveraging generated data more
efficiently for reinforcement learning in large language models.