DCPO: Динамическая оптимизация политики с ограничением

Аннотация

Обучение с подкреплением на основе проверяемых наград (RLVR) стало перспективной основой для улучшения способностей к рассуждению у крупных языковых моделей. Однако существующие подходы, такие как GRPO, часто сталкиваются с проблемой нулевых градиентов. Эта проблема возникает в основном из-за фиксированных границ обрезки для вероятностных соотношений на уровне токенов и стандартизации одинаковых наград, что может приводить к неэффективным обновлениям градиентов и недостаточному использованию сгенерированных ответов. В данной работе мы предлагаем метод динамической оптимизации политики с обрезкой (DCPO), который вводит стратегию динамической обрезки, адаптивно регулирующую границы обрезки на основе априорных вероятностей для конкретных токенов, чтобы улучшить исследование на уровне токенов, а также технику сглаженной стандартизации преимуществ, которая стандартизирует награды на протяжении кумулятивных шагов обучения для повышения эффективного использования сгенерированных ответов на уровне ответов. DCPO достиг наилучших результатов на четырех бенчмарках с использованием четырех различных моделей. В частности, DCPO показал Avg@1 46.7 при жадном декодировании и Avg@32 38.8 при 32-кратной выборке на бенчмарке AIME24, превзойдя как DAPO (36.7/31.6), так и GRPO (36.7/32.1) на модели Qwen2.5-Math-7B. На бенчмарке AIME25 с использованием Qwen2.5-14B DCPO достиг результатов (23.3/19.0), превзойдя GRPO (13.3/10.5) и DAPO (20.0/15.3). Кроме того, DCPO показал в среднем 28% улучшение ненулевого преимущества по сравнению с GRPO на четырех моделях, удвоил эффективность обучения по сравнению с DAPO и значительно сократил коэффициент обрезки токенов на порядок по сравнению с GRPO и DAPO, при этом демонстрируя превосходные результаты. Эти результаты подчеркивают эффективность DCPO в более эффективном использовании сгенерированных данных для обучения с подкреплением в крупных языковых моделях.

English

Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as a promising framework for enhancing the reasoning capabilities of large language models. However, existing approaches such as GRPO often suffer from zero gradients. This problem arises primarily due to fixed clipping bounds for token-level probability ratios and the standardization of identical rewards, which can lead to ineffective gradient updates and underutilization of generated responses. In this work, we propose Dynamic Clipping Policy Optimization (DCPO), which introduces a dynamic clipping strategy that adaptively adjusts the clipping bounds based on token-specific prior probabilities to enhance token-level exploration, and a smooth advantage standardization technique that standardizes rewards across cumulative training steps to improve the response-level effective utilization of generated responses. DCPO achieved state-of-the-art performance on four benchmarks based on four different models. In particular, DCPO achieved an Avg@1 of 46.7 under greedy decoding and an Avg@32 of 38.8 under 32 times sampling on the AIME24 benchmark, surpassing both DAPO (36.7/31.6) and GRPO (36.7/32.1) on the Qwen2.5-Math-7B model. On the AIME25 benchmark based on Qwen2.5-14B, DCPO achieves a performance of (23.3/19.0), surpassing GRPO (13.3/10.5) and DAPO (20.0/15.3). Furthermore, DCPO achieved an average 28% improvement in the nonzero advantage over GRPO in four models, doubled the training efficiency over DAPO, and significantly reduced the token clipping ratio by an order of magnitude compared to both GRPO and DAPO, while achieving superior performance. These results highlight DCPO's effectiveness in leveraging generated data more efficiently for reinforcement learning in large language models.

DCPO: Динамическая оптимизация политики с ограничением

DCPO: Dynamic Clipping Policy Optimization

Аннотация

Support