GDPO: Groepsbeloning-ontkoppelde genormaliseerde beleidsoptimalisatie voor multi-beloning RL-optimalisatie

Samenvatting

Naarmate taalmodellen steeds capabeler worden, verwachten gebruikers niet alleen nauwkeurige antwoorden, maar ook gedrag dat is afgestemd op uiteenlopende menselijke voorkeuren in diverse scenario's. Om dit te bereiken, zijn reinforcement learning (RL) pijplijnen begonnen met het incorporeren van meerdere beloningen, elk gericht op een specifieke voorkeur, om modellen naar dit gewenste gedrag te sturen. Recent werk past echter standaard Group Relative Policy Optimization (GRPO) toe in een multi-beloningssetting zonder de geschiktheid ervan te onderzoeken. In dit artikel tonen we aan dat het direct toepassen van GRPO om verschillende rollout-beloningscombinaties te normaliseren, ervoor zorgt dat deze samenvallen tot identieke advantage-waarden. Dit vermindert de resolutie van het trainingssignaal en resulteert in suboptimale convergentie en, in sommige gevallen, vroegtijdige trainingsfouten. Vervolgens introduceren we Group reward-Decoupled Normalization Policy Optimization (GDPO), een nieuwe policy optimization-methode om deze problemen op te lossen door de normalisatie van individuele beloningen te ontkoppelen. Hierdoor worden hun onderlinge verschillen beter behouden, wordt nauwkeurigere multi-beloningsoptimalisatie mogelijk gemaakt en neemt de trainingsstabiliteit aanzienlijk toe. We vergelijken GDPO met GRPO in drie taken: tool calling, wiskundig redeneren en coderingsredenering, waarbij we zowel correctheidsmetrieken (nauwkeurigheid, bugratio) als metrieken voor naleving van randvoorwaarden (formaat, lengte) evalueren. In alle settings presteert GDPO consistent beter dan GRPO, wat de effectiviteit en generaliseerbaarheid ervan aantoont voor multi-beloning reinforcement learning-optimalisatie.

English

As language models become increasingly capable, users expect them to provide not only accurate responses but also behaviors aligned with diverse human preferences across a variety of scenarios. To achieve this, Reinforcement learning (RL) pipelines have begun incorporating multiple rewards, each capturing a distinct preference, to guide models toward these desired behaviors. However, recent work has defaulted to apply Group Relative Policy Optimization (GRPO) under multi-reward setting without examining its suitability. In this paper, we demonstrate that directly applying GRPO to normalize distinct rollout reward combinations causes them to collapse into identical advantage values, reducing the resolution of the training signal and resulting in suboptimal convergence and, in some cases, early training failure. We then introduce Group reward-Decoupled Normalization Policy Optimization (GDPO), a new policy optimization method to resolve these issues by decoupling the normalization of individual rewards, more faithfully preserving their relative differences and enabling more accurate multi-reward optimization, along with substantially improved training stability. We compare GDPO with GRPO across three tasks: tool calling, math reasoning, and coding reasoning, evaluating both correctness metrics (accuracy, bug ratio) and constraint adherence metrics (format, length). Across all settings, GDPO consistently outperforms GRPO, demonstrating its effectiveness and generalizability for multi-reward reinforcement learning optimization.

GDPO: Groepsbeloning-ontkoppelde genormaliseerde beleidsoptimalisatie voor multi-beloning RL-optimalisatie

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

Samenvatting

Support