GDPO: Gruppenbelohnungs-entkoppelte Normalisierungs-Policy-Optimierung für Multi-Belohnungs-Reinforcement-Learning-Optimierung
GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization
January 8, 2026
papers.authors: Shih-Yang Liu, Xin Dong, Ximing Lu, Shizhe Diao, Peter Belcak, Mingjie Liu, Min-Hung Chen, Hongxu Yin, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Yejin Choi, Jan Kautz, Pavlo Molchanov
cs.AI
papers.abstract
Da Sprachmodelle zunehmend leistungsfähiger werden, erwarten Nutzer von ihnen nicht nur präzise Antworten, sondern auch Verhaltensweisen, die mit unterschiedlichen menschlichen Präferenzen in verschiedenen Szenarien übereinstimmen. Um dies zu erreichen, integrieren Reinforcement-Learning (RL)-Pipelines zunehmend mehrere Belohnungssignale, von denen jedes eine bestimmte Präferenz erfasst, um Modelle in Richtung dieser gewünschten Verhaltensweisen zu lenken. Jüngere Arbeiten wenden jedoch standardmäßig Group Relative Policy Optimization (GRPO) in Multi-Belohnungs-Szenarien an, ohne deren Eignung zu prüfen. In dieser Arbeit zeigen wir, dass die direkte Anwendung von GRPO zur Normalisierung unterschiedlicher Rollout-Belohnungskombinationen dazu führt, dass diese zu identischen Advantage-Werten kollabieren. Dies reduziert die Auflösung des Trainingssignals und führt zu suboptimaler Konvergenz sowie in einigen Fällen zu frühzeitigem Trainingsversagen. Wir stellen daraufhin Group reward-Decoupled Normalization Policy Optimization (GDPO) vor, eine neue Policy-Optimierungsmethode, die diese Probleme behebt, indem sie die Normalisierung individueller Belohnungen entkoppelt. Dadurch werden deren relative Unterschiede treuer bewahrt und eine präzisere Multi-Belohnungs-Optimierung bei deutlich verbesserter Trainingsstabilität ermöglicht. Wir vergleichen GDPO mit GRPO in drei Aufgabenbereichen: Tool-Aufruf, mathematisches Reasoning und Programmier-Reasoning, wobei sowohl Korrektheitsmetriken (Genauigkeit, Bug-Rate) als auch Metriken zur Einhaltung von Randbedingungen (Format, Länge) ausgewertet werden. In allen Konfigurationen übertrifft GDPO durchgängig GRPO, was seine Effektivität und Generalisierbarkeit für die Multi-Belohnungs-Optimierung im Reinforcement Learning demonstriert.
English
As language models become increasingly capable, users expect them to provide not only accurate responses but also behaviors aligned with diverse human preferences across a variety of scenarios. To achieve this, Reinforcement learning (RL) pipelines have begun incorporating multiple rewards, each capturing a distinct preference, to guide models toward these desired behaviors. However, recent work has defaulted to apply Group Relative Policy Optimization (GRPO) under multi-reward setting without examining its suitability. In this paper, we demonstrate that directly applying GRPO to normalize distinct rollout reward combinations causes them to collapse into identical advantage values, reducing the resolution of the training signal and resulting in suboptimal convergence and, in some cases, early training failure. We then introduce Group reward-Decoupled Normalization Policy Optimization (GDPO), a new policy optimization method to resolve these issues by decoupling the normalization of individual rewards, more faithfully preserving their relative differences and enabling more accurate multi-reward optimization, along with substantially improved training stability. We compare GDPO with GRPO across three tasks: tool calling, math reasoning, and coding reasoning, evaluating both correctness metrics (accuracy, bug ratio) and constraint adherence metrics (format, length). Across all settings, GDPO consistently outperforms GRPO, demonstrating its effectiveness and generalizability for multi-reward reinforcement learning optimization.