GD^2PO: Minderung von Multi-Belohnungs-Konflikten durch gruppendynamische belohnungsentkoppelte Policy-Optimierung

Zusammenfassung

Mit dem Fortschritt großer Sprachmodelle (LLMs) stützt sich das nach dem Training durchgeführte Reinforcement Learning (RL) zunehmend auf mehrdimensionale Belohnungen, um umfassende Fähigkeiten zu entwickeln. Dieser Wandel erfordert neuartige Algorithmen, die in der Lage sind, diverse und potenziell konkurrierende Ziele gleichzeitig zu optimieren. Um dies zu adressieren, zerlegen bestehende Methoden wie die Group reward-Decoupled Policy Optimization (GDPO) die Gesamtpunktzahl in unabhängige Belohnungsgruppen und berechnen den RL-Verlust anschließend separat für jede Gruppe. Diese Strategie stößt jedoch weiterhin auf Multi-Belohnungskonflikte: Ein einzelner Rollout kann auf bestimmten Belohnungsdimensionen positive, auf anderen jedoch negative Advantages erzeugen, was dazu führt, dass sich gegensätzliche Signale bei der Aggregation gegenseitig aufheben und die RL-Trainingseffizienz weiter behindern. Inspiriert von der Dynamic sAmpling Policy Optimization (DAPO), die die RL-Trainingseffizienz durch das Herausfiltern ineffektiver Rollouts mit nahezu null Advantages verbessert, schlagen wir die Group-Dynamic reward-Decoupled Policy Optimization (GD²PO) vor. Konkret setzt GD²PO einen konfliktbewussten Filtermechanismus ein, um Rollouts auszublenden, die unter starken belohnungsbezogenen Diskrepanzen leiden. Indem verhindert wird, dass sich widersprüchliche Signale gegenseitig aufheben, bewahrt und verstärkt diese Ausblendungsstrategie die Größe effektiver RL-Advantages und beschleunigt so die Lerneffizienz erheblich. Darüber hinaus führen wir eine Neugewichtung auf Abfrageebene ein, um die Aktualisierungsintensität jeder Abfrage dynamisch auf der Grundlage ihres gesamten Belohnungskonsenses anzupassen. Experimente in verschiedenen Multi-Belohnungsszenarien, darunter Tool Calling und die Ausrichtung an menschlichen Präferenzen, zeigen, dass GD²PO durchgängig und deutlich besser abschneidet als bestehende Basislinien. Der Code ist verfügbar unter https://github.com/Qwen-Applications/GD2PO.

English

As LLMs advance, post-training reinforcement learning (RL) increasingly relies on multi-dimensional rewards to cultivate comprehensive capabilities. This shift demands new algorithms capable of optimizing diverse and potentially competing objectives simultaneously. To address this, existing methods such as Group reward-Decoupled Policy Optimization (GDPO) decompose the overall score into independent reward groups, then compute the RL loss separately within each group. However, this strategy still encounters multi-reward conflicts: a single rollout can yield positive advantages on certain reward dimensions but negative ones on others, causing opposing signals to cancel each other out during aggregation, further hindering RL training efficiency. Inspired by Dynamic sAmpling Policy Optimization (DAPO), which improves RL training efficiency by filtering out ineffective rollouts with near-zero advantages, we propose Group-Dynamic reward-Decoupled Policy Optimization (GD^2PO). Specifically, GD^2PO employs a conflict-aware filtering mechanism to mask out rollouts suffering from severe reward-wise disagreement. By preventing conflicting signals from canceling each other out, this masking strategy preserves and enhances the magnitude of effective RL advantages, thereby significantly accelerating learning efficiency. Furthermore, we introduce query-level reweighting to dynamically adjust the update intensity of each query based on its overall reward consensus. Experiments on various multi-reward scenarios, including tool calling and human preference alignment, demonstrate that GD^2PO consistently and significantly outperforms existing baselines. The code is available at https://github.com/Qwen-Applications/GD2PO.