GDPO: Ottimizzazione delle Politiche con Normalizzazione Disaccoppiata dalla Ricompensa di Gruppo per l'Ottimizzazione RL Multi-ricompensa

Abstract

Man mano che i modelli linguistici diventano sempre più capaci, gli utenti si aspettano che forniscano non solo risposte accurate, ma anche comportamenti allineati con le diverse preferenze umane in una varietà di scenari. Per raggiungere questo obiettivo, le pipeline di apprendimento per rinforzo (Reinforcement Learning, RL) hanno iniziato a incorporare molteplici ricompense, ciascuna delle quali cattura una preferenza distinta, per guidare i modelli verso questi comportamenti desiderati. Tuttavia, i lavori recenti hanno applicato per default l'ottimizzazione della politica relativa al gruppo (Group Relative Policy Optimization, GRPO) in contesti multi-ricompensa senza esaminarne l'adeguatezza. In questo articolo, dimostriamo che l'applicazione diretta del GRPO per normalizzare combinazioni distinte di ricompense sui rollout fa sì che queste collassino in valori di vantaggio identici, riducendo la risoluzione del segnale di addestramento e portando a una convergenza subottimale e, in alcuni casi, a un fallimento precoce dell'addestramento. Introduciamo quindi l'ottimizzazione della politica con normalizzazione disaccoppiata delle ricompense di gruppo (Group reward-Decoupled Normalization Policy Optimization, GDPO), un nuovo metodo di ottimizzazione delle politiche per risolvere questi problemi disaccoppiando la normalizzazione delle singole ricompense, preservando in modo più fedele le loro differenze relative e consentendo un'ottimizzazione multi-ricompensa più accurata, insieme a una stabilità dell'addestramento notevolmente migliorata. Confrontiamo il GDPO con il GRPO in tre compiti: tool calling, ragionamento matematico e ragionamento di codifica, valutando sia metriche di correttezza (accuratezza, rapporto di bug) che metriche di aderenza ai vincoli (formato, lunghezza). In tutti gli scenari, il GDPO supera costantemente il GRPO, dimostrandone l'efficacia e la generalizzabilità per l'ottimizzazione dell'apprendimento per rinforzo multi-ricompensa.

English

As language models become increasingly capable, users expect them to provide not only accurate responses but also behaviors aligned with diverse human preferences across a variety of scenarios. To achieve this, Reinforcement learning (RL) pipelines have begun incorporating multiple rewards, each capturing a distinct preference, to guide models toward these desired behaviors. However, recent work has defaulted to apply Group Relative Policy Optimization (GRPO) under multi-reward setting without examining its suitability. In this paper, we demonstrate that directly applying GRPO to normalize distinct rollout reward combinations causes them to collapse into identical advantage values, reducing the resolution of the training signal and resulting in suboptimal convergence and, in some cases, early training failure. We then introduce Group reward-Decoupled Normalization Policy Optimization (GDPO), a new policy optimization method to resolve these issues by decoupling the normalization of individual rewards, more faithfully preserving their relative differences and enabling more accurate multi-reward optimization, along with substantially improved training stability. We compare GDPO with GRPO across three tasks: tool calling, math reasoning, and coding reasoning, evaluating both correctness metrics (accuracy, bug ratio) and constraint adherence metrics (format, length). Across all settings, GDPO consistently outperforms GRPO, demonstrating its effectiveness and generalizability for multi-reward reinforcement learning optimization.

GDPO: Ottimizzazione delle Politiche con Normalizzazione Disaccoppiata dalla Ricompensa di Gruppo per l'Ottimizzazione RL Multi-ricompensa

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

Abstract

Support