ChatPaper.aiChatPaper

GDPO: Оптимизация политики с групповым вознаграждением и развязанной нормализацией для RL с множественными вознаграждениями

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

January 8, 2026
Авторы: Shih-Yang Liu, Xin Dong, Ximing Lu, Shizhe Diao, Peter Belcak, Mingjie Liu, Min-Hung Chen, Hongxu Yin, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Yejin Choi, Jan Kautz, Pavlo Molchanov
cs.AI

Аннотация

По мере роста возможностей языковых моделей пользователи ожидают от них не только точных ответов, но и поведения, согласованного с разнообразными человеческими предпочтениями в различных сценариях. Для достижения этой цели в конвейеры обучения с подкреплением (Reinforcement Learning, RL) начали включать множественные вознаграждения, каждое из которых отражает отдельное предпочтение, чтобы направлять модели к желаемому поведению. Однако в последних работах по умолчанию применяется Оптимизация политики с групповой относительной оценкой (Group Relative Policy Optimization, GRPO) в условиях множественных вознаграждений без проверки её целесообразности. В данной статье мы показываем, что прямое применение GRPO для нормализации различных комбинаций вознаграждений сэмплов приводит к их коллапсу в идентичные значения преимущества (advantage), что снижает разрешающую способность обучающего сигнала и ведет к субоптимальной сходимости, а в некоторых случаях — к преждевременному сбою обучения. Затем мы представляем GDPO (Group reward-Decoupled Normalization Policy Optimization) — новый метод оптимизации политики, который решает эти проблемы путем раздельной нормализации индивидуальных вознаграждений, более точно сохраняя их относительные различия и обеспечивая более точную оптимизацию по множественным вознаграждениям наряду со значительным повышением стабильности обучения. Мы сравниваем GDPO с GRPO в трех задачах: вызове инструментов, математических рассуждениях и программных рассуждениях, оценивая как метрики корректности (точность, доля ошибок), так и метрики соблюдения ограничений (формат, длина). Во всех экспериментах GDPO последовательно превосходит GRPO, демонстрируя свою эффективность и универсальность для оптимизации обучения с подкреплением с множественными вознаграждениями.
English
As language models become increasingly capable, users expect them to provide not only accurate responses but also behaviors aligned with diverse human preferences across a variety of scenarios. To achieve this, Reinforcement learning (RL) pipelines have begun incorporating multiple rewards, each capturing a distinct preference, to guide models toward these desired behaviors. However, recent work has defaulted to apply Group Relative Policy Optimization (GRPO) under multi-reward setting without examining its suitability. In this paper, we demonstrate that directly applying GRPO to normalize distinct rollout reward combinations causes them to collapse into identical advantage values, reducing the resolution of the training signal and resulting in suboptimal convergence and, in some cases, early training failure. We then introduce Group reward-Decoupled Normalization Policy Optimization (GDPO), a new policy optimization method to resolve these issues by decoupling the normalization of individual rewards, more faithfully preserving their relative differences and enabling more accurate multi-reward optimization, along with substantially improved training stability. We compare GDPO with GRPO across three tasks: tool calling, math reasoning, and coding reasoning, evaluating both correctness metrics (accuracy, bug ratio) and constraint adherence metrics (format, length). Across all settings, GDPO consistently outperforms GRPO, demonstrating its effectiveness and generalizability for multi-reward reinforcement learning optimization.
PDF965January 10, 2026