GDPO : Optimisation de Politique par Normalisation Découplée des Récompenses de Groupe pour l'Optimisation RL Multi-Récompenses
GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization
January 8, 2026
papers.authors: Shih-Yang Liu, Xin Dong, Ximing Lu, Shizhe Diao, Peter Belcak, Mingjie Liu, Min-Hung Chen, Hongxu Yin, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Yejin Choi, Jan Kautz, Pavlo Molchanov
cs.AI
papers.abstract
Alors que les modèles de langage deviennent de plus en plus performants, les utilisateurs attendent d'eux non seulement des réponses précises, mais aussi des comportements alignés sur des préférences humaines diverses dans une variété de scénarios. Pour y parvenir, les pipelines d'apprentissage par renforcement (RL) ont commencé à incorporer des récompenses multiples, chacune capturant une préférence distincte, pour guider les modèles vers ces comportements souhaités. Cependant, les travaux récents ont systématiquement appliqué l'Optimisation de Politique par Groupe Relatif (GRPO) dans un cadre à récompenses multiples sans examiner sa pertinence. Dans cet article, nous démontrons qu'appliquer directement GRPO pour normaliser des combinaisons distinctes de récompenses de rollouts entraîne leur effondrement en des valeurs d'avantage identiques, réduisant ainsi la résolution du signal d'entraînement et conduisant à une convergence sous-optimale et, dans certains cas, à un échec précoce de l'entraînement. Nous introduisons ensuite l'Optimisation de Politique par Normalisation Découplée des Récompenses de Groupe (GDPO), une nouvelle méthode d'optimisation de politique pour résoudre ces problèmes en découplant la normalisation des récompenses individuelles, préservant ainsi plus fidèlement leurs différences relatives et permettant une optimisation multi-récompense plus précise, ainsi qu'une stabilité d'entraînement considérablement améliorée. Nous comparons GDPO avec GRPO sur trois tâches : l'appel d'outils, le raisonnement mathématique et le raisonnement en programmation, en évaluant à la fois les métriques de justesse (exactitude, taux d'erreurs) et les métriques de respect des contraintes (format, longueur). Dans tous les contextes, GDPO surpasse systématiquement GRPO, démontrant son efficacité et sa généralisabilité pour l'optimisation de l'apprentissage par renforcement à récompenses multiples.
English
As language models become increasingly capable, users expect them to provide not only accurate responses but also behaviors aligned with diverse human preferences across a variety of scenarios. To achieve this, Reinforcement learning (RL) pipelines have begun incorporating multiple rewards, each capturing a distinct preference, to guide models toward these desired behaviors. However, recent work has defaulted to apply Group Relative Policy Optimization (GRPO) under multi-reward setting without examining its suitability. In this paper, we demonstrate that directly applying GRPO to normalize distinct rollout reward combinations causes them to collapse into identical advantage values, reducing the resolution of the training signal and resulting in suboptimal convergence and, in some cases, early training failure. We then introduce Group reward-Decoupled Normalization Policy Optimization (GDPO), a new policy optimization method to resolve these issues by decoupling the normalization of individual rewards, more faithfully preserving their relative differences and enabling more accurate multi-reward optimization, along with substantially improved training stability. We compare GDPO with GRPO across three tasks: tool calling, math reasoning, and coding reasoning, evaluating both correctness metrics (accuracy, bug ratio) and constraint adherence metrics (format, length). Across all settings, GDPO consistently outperforms GRPO, demonstrating its effectiveness and generalizability for multi-reward reinforcement learning optimization.