GD²PO: Verminderen van multi-beloningsconflicten via groepsdynamische beloningsontkoppelde beleidsoptimalisatie

Samenvatting

Naarmate grote taalmodellen (LLMs) zich verder ontwikkelen, wordt post-training versterkend leren (RL) steeds afhankelijker van multidimensionale beloningen om uitgebreide capaciteiten te cultiveren. Deze verschuiving vereist nieuwe algoritmen die in staat zijn diverse en potentieel concurrerende doelstellingen gelijktijdig te optimaliseren. Om dit aan te pakken, decomponeren bestaande methoden zoals Group reward-Decoupled Policy Optimization (GDPO) de totale score in onafhankelijke beloningsgroepen, waarna de RL-verliesfunctie per groep afzonderlijk wordt berekend. Deze strategie stuit echter nog steeds op multi-beloningsconflicten: een enkele rollout kan positieve advantages opleveren voor bepaalde beloningsdimensies, maar negatieve voor andere, waardoor tegenstrijdige signalen elkaar tijdens aggregatie opheffen en de efficiëntie van RL-training verder belemmeren. Geïnspireerd door Dynamic sAmpling Policy Optimization (DAPO), dat de RL-trainingsefficiëntie verbetert door ineffectieve rollouts met bijna nul advantages te filteren, stellen wij Group-Dynamic reward-Decoupled Policy Optimization (GD²PO) voor. Specifiek gebruikt GD²PO een conflictbewust filteringsmechanisme om rollouts te maskeren die lijden onder ernstige beloningsgewijze onenigheid. Door te voorkomen dat conflicterende signalen elkaar opheffen, behoudt en versterkt deze maskeringsstrategie de omvang van effectieve RL-advantages, waardoor de leerefficiëntie aanzienlijk wordt versneld. Bovendien introduceren we queryniveau-herweging om de update-intensiteit van elke query dynamisch aan te passen op basis van de algehele beloningsconsensus. Experimenten in diverse multi-beloningsscenario's, waaronder tool calling en afstemming op menselijke voorkeuren, tonen aan dat GD²PO consequent en significant beter presteert dan bestaande baselines. De code is beschikbaar op https://github.com/Qwen-Applications/GD2PO.

English

As LLMs advance, post-training reinforcement learning (RL) increasingly relies on multi-dimensional rewards to cultivate comprehensive capabilities. This shift demands new algorithms capable of optimizing diverse and potentially competing objectives simultaneously. To address this, existing methods such as Group reward-Decoupled Policy Optimization (GDPO) decompose the overall score into independent reward groups, then compute the RL loss separately within each group. However, this strategy still encounters multi-reward conflicts: a single rollout can yield positive advantages on certain reward dimensions but negative ones on others, causing opposing signals to cancel each other out during aggregation, further hindering RL training efficiency. Inspired by Dynamic sAmpling Policy Optimization (DAPO), which improves RL training efficiency by filtering out ineffective rollouts with near-zero advantages, we propose Group-Dynamic reward-Decoupled Policy Optimization (GD^2PO). Specifically, GD^2PO employs a conflict-aware filtering mechanism to mask out rollouts suffering from severe reward-wise disagreement. By preventing conflicting signals from canceling each other out, this masking strategy preserves and enhances the magnitude of effective RL advantages, thereby significantly accelerating learning efficiency. Furthermore, we introduce query-level reweighting to dynamically adjust the update intensity of each query based on its overall reward consensus. Experiments on various multi-reward scenarios, including tool calling and human preference alignment, demonstrate that GD^2PO consistently and significantly outperforms existing baselines. The code is available at https://github.com/Qwen-Applications/GD2PO.