GD^2PO: Смягчение конфликтов множественных вознаграждений с помощью групповой динамической оптимизации политики с разделением вознаграждений

Аннотация

По мере развития больших языковых моделей (LLM) обучение с подкреплением (RL) после предварительного обучения всё чаще полагается на многомерные вознаграждения для развития комплексных способностей. Этот сдвиг требует новых алгоритмов, способных одновременно оптимизировать разнообразные и потенциально конкурирующие цели. Для решения этой задачи существующие методы, такие как Group reward-Decoupled Policy Optimization (GDPO), разлагают общую оценку на независимые группы вознаграждений, а затем вычисляют потери RL отдельно для каждой группы. Однако эта стратегия всё ещё сталкивается с конфликтами множественных вознаграждений: один прогон может давать положительные преимущества по одним измерениям вознаграждения, но отрицательные по другим, что приводит к взаимному подавлению противоположных сигналов при агрегации, дополнительно снижая эффективность обучения RL. Вдохновлённые методом Dynamic sAmpling Policy Optimization (DAPO), который повышает эффективность обучения RL за счёт фильтрации неэффективных прогонов с почти нулевыми преимуществами, мы предлагаем Group-Dynamic reward-Decoupled Policy Optimization (GD^2PO). В частности, GD^2PO использует механизм фильтрации, учитывающий конфликты, для маскировки прогонов, страдающих от серьёзных расхождений между вознаграждениями. Предотвращая взаимное подавление конфликтующих сигналов, эта стратегия маскировки сохраняет и усиливает величину эффективных преимуществ RL, что значительно ускоряет скорость обучения. Кроме того, мы вводим перевзвешивание на уровне запросов для динамической корректировки интенсивности обновления каждого запроса на основе общего консенсуса по вознаграждениям. Эксперименты на различных многомерных сценариях вознаграждения, включая вызов инструментов и согласование с человеческими предпочтениями, показывают, что GD^2PO последовательно и значительно превосходит существующие базовые методы. Код доступен по адресу https://github.com/Qwen-Applications/GD2PO.

English

As LLMs advance, post-training reinforcement learning (RL) increasingly relies on multi-dimensional rewards to cultivate comprehensive capabilities. This shift demands new algorithms capable of optimizing diverse and potentially competing objectives simultaneously. To address this, existing methods such as Group reward-Decoupled Policy Optimization (GDPO) decompose the overall score into independent reward groups, then compute the RL loss separately within each group. However, this strategy still encounters multi-reward conflicts: a single rollout can yield positive advantages on certain reward dimensions but negative ones on others, causing opposing signals to cancel each other out during aggregation, further hindering RL training efficiency. Inspired by Dynamic sAmpling Policy Optimization (DAPO), which improves RL training efficiency by filtering out ineffective rollouts with near-zero advantages, we propose Group-Dynamic reward-Decoupled Policy Optimization (GD^2PO). Specifically, GD^2PO employs a conflict-aware filtering mechanism to mask out rollouts suffering from severe reward-wise disagreement. By preventing conflicting signals from canceling each other out, this masking strategy preserves and enhances the magnitude of effective RL advantages, thereby significantly accelerating learning efficiency. Furthermore, we introduce query-level reweighting to dynamically adjust the update intensity of each query based on its overall reward consensus. Experiments on various multi-reward scenarios, including tool calling and human preference alignment, demonstrate that GD^2PO consistently and significantly outperforms existing baselines. The code is available at https://github.com/Qwen-Applications/GD2PO.