GD^2PO : Atténuer les conflits multi-récompenses via l'optimisation de politique découplée des récompenses à dynamique de groupe

Résumé

A mesure que les modèles de langage de grande taille (LLMs) progressent, l'apprentissage par renforcement (RL) post-entraînement repose de plus en plus sur des récompenses multidimensionnelles pour développer des capacités complètes. Cette évolution exige de nouveaux algorithmes capables d'optimiser simultanément des objectifs divers et potentiellement concurrents. Pour y répondre, des méthodes existantes telles que l'Optimisation de Politique Découplée par Groupe de Récompenses (GDPO) décomposent le score global en groupes de récompenses indépendants, puis calculent la perte RL séparément au sein de chaque groupe. Cependant, cette stratégie se heurte encore à des conflits multi-récompenses : un même déploiement peut générer des avantages positifs sur certaines dimensions de récompense et négatifs sur d'autres, provoquant une annulation mutuelle des signaux opposés lors de l'agrégation, ce qui freine l'efficacité de l'entraînement RL. Inspirés par l'Optimisation de Politique par Échantillonnage Dynamique (DAPO), qui améliore l'efficacité de l'entraînement RL en filtrant les déploiements inefficaces dont les avantages sont proches de zéro, nous proposons l'Optimisation de Politique Découplée par Groupe de Récompenses Dynamiques (GD²PO). Plus précisément, GD²PO utilise un mécanisme de filtrage sensible aux conflits pour masquer les déploiements souffrant d'un désaccord marqué entre les récompenses. En empêchant les signaux contradictoires de s'annuler mutuellement, cette stratégie de masquage préserve et amplifie l'amplitude des avantages RL effectifs, accélérant ainsi significativement l'efficacité de l'apprentissage. De plus, nous introduisons une répondération au niveau des requêtes afin d'ajuster dynamiquement l'intensité de mise à jour de chaque requête en fonction du consensus global de ses récompenses. Les expériences menées sur divers scénarios multi-récompenses, incluant l'appel d'outils et l'alignement des préférences humaines, montrent que GD²PO surpasse systématiquement et significativement les bases de référence existantes. Le code est disponible à l'adresse https://github.com/Qwen-Applications/GD2PO.

English

As LLMs advance, post-training reinforcement learning (RL) increasingly relies on multi-dimensional rewards to cultivate comprehensive capabilities. This shift demands new algorithms capable of optimizing diverse and potentially competing objectives simultaneously. To address this, existing methods such as Group reward-Decoupled Policy Optimization (GDPO) decompose the overall score into independent reward groups, then compute the RL loss separately within each group. However, this strategy still encounters multi-reward conflicts: a single rollout can yield positive advantages on certain reward dimensions but negative ones on others, causing opposing signals to cancel each other out during aggregation, further hindering RL training efficiency. Inspired by Dynamic sAmpling Policy Optimization (DAPO), which improves RL training efficiency by filtering out ineffective rollouts with near-zero advantages, we propose Group-Dynamic reward-Decoupled Policy Optimization (GD^2PO). Specifically, GD^2PO employs a conflict-aware filtering mechanism to mask out rollouts suffering from severe reward-wise disagreement. By preventing conflicting signals from canceling each other out, this masking strategy preserves and enhances the magnitude of effective RL advantages, thereby significantly accelerating learning efficiency. Furthermore, we introduce query-level reweighting to dynamically adjust the update intensity of each query based on its overall reward consensus. Experiments on various multi-reward scenarios, including tool calling and human preference alignment, demonstrate that GD^2PO consistently and significantly outperforms existing baselines. The code is available at https://github.com/Qwen-Applications/GD2PO.