DCPO: Динамическая оптимизация политики с ограничением
DCPO: Dynamic Clipping Policy Optimization
September 2, 2025
Авторы: Shihui Yang, Chengfeng Dou, Peidong Guo, Kai Lu, Qiang Ju, Fei Deng, Rihui Xin
cs.AI
Аннотация
Обучение с подкреплением на основе проверяемых наград (RLVR) стало перспективной основой для улучшения способностей к рассуждению у крупных языковых моделей. Однако существующие подходы, такие как GRPO, часто сталкиваются с проблемой нулевых градиентов. Эта проблема возникает в основном из-за фиксированных границ обрезки для вероятностных соотношений на уровне токенов и стандартизации одинаковых наград, что может приводить к неэффективным обновлениям градиентов и недостаточному использованию сгенерированных ответов. В данной работе мы предлагаем метод динамической оптимизации политики с обрезкой (DCPO), который вводит стратегию динамической обрезки, адаптивно регулирующую границы обрезки на основе априорных вероятностей для конкретных токенов, чтобы улучшить исследование на уровне токенов, а также технику сглаженной стандартизации преимуществ, которая стандартизирует награды на протяжении кумулятивных шагов обучения для повышения эффективного использования сгенерированных ответов на уровне ответов. DCPO достиг наилучших результатов на четырех бенчмарках с использованием четырех различных моделей. В частности, DCPO показал Avg@1 46.7 при жадном декодировании и Avg@32 38.8 при 32-кратной выборке на бенчмарке AIME24, превзойдя как DAPO (36.7/31.6), так и GRPO (36.7/32.1) на модели Qwen2.5-Math-7B. На бенчмарке AIME25 с использованием Qwen2.5-14B DCPO достиг результатов (23.3/19.0), превзойдя GRPO (13.3/10.5) и DAPO (20.0/15.3). Кроме того, DCPO показал в среднем 28% улучшение ненулевого преимущества по сравнению с GRPO на четырех моделях, удвоил эффективность обучения по сравнению с DAPO и значительно сократил коэффициент обрезки токенов на порядок по сравнению с GRPO и DAPO, при этом демонстрируя превосходные результаты. Эти результаты подчеркивают эффективность DCPO в более эффективном использовании сгенерированных данных для обучения с подкреплением в крупных языковых моделях.
English
Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as a
promising framework for enhancing the reasoning capabilities of large language
models. However, existing approaches such as GRPO often suffer from zero
gradients. This problem arises primarily due to fixed clipping bounds for
token-level probability ratios and the standardization of identical rewards,
which can lead to ineffective gradient updates and underutilization of
generated responses. In this work, we propose Dynamic Clipping Policy
Optimization (DCPO), which introduces a dynamic clipping strategy that
adaptively adjusts the clipping bounds based on token-specific prior
probabilities to enhance token-level exploration, and a smooth advantage
standardization technique that standardizes rewards across cumulative training
steps to improve the response-level effective utilization of generated
responses. DCPO achieved state-of-the-art performance on four benchmarks based
on four different models. In particular, DCPO achieved an Avg@1 of 46.7 under
greedy decoding and an Avg@32 of 38.8 under 32 times sampling on the AIME24
benchmark, surpassing both DAPO (36.7/31.6) and GRPO (36.7/32.1) on the
Qwen2.5-Math-7B model. On the AIME25 benchmark based on Qwen2.5-14B, DCPO
achieves a performance of (23.3/19.0), surpassing GRPO (13.3/10.5) and DAPO
(20.0/15.3). Furthermore, DCPO achieved an average 28% improvement in the
nonzero advantage over GRPO in four models, doubled the training efficiency
over DAPO, and significantly reduced the token clipping ratio by an order of
magnitude compared to both GRPO and DAPO, while achieving superior performance.
These results highlight DCPO's effectiveness in leveraging generated data more
efficiently for reinforcement learning in large language models.