GD^2PO: Mitigación de Conflictos Multi-Recompensa mediante Optimización de Políticas con Recompensa Desacoplada y Dinámica de Grupo

Resumen

A medida que los modelos de lenguaje de gran escala (LLMs) avanzan, el aprendizaje por refuerzo (RL) posterior al entrenamiento depende cada vez más de recompensas multidimensionales para desarrollar capacidades integrales. Este cambio exige nuevos algoritmos capaces de optimizar simultáneamente objetivos diversos y potencialmente contrapuestos. Para abordar esto, métodos existentes como la Optimización de Políticas Desacoplada por Recompensa de Grupo (GDPO) descomponen la puntuación global en grupos de recompensa independientes, calculando luego la pérdida de RL por separado en cada grupo. Sin embargo, esta estrategia aún enfrenta conflictos de múltiples recompensas: una sola ejecución puede generar ventajas positivas en ciertas dimensiones de recompensa pero negativas en otras, provocando que señales opuestas se cancelen mutuamente durante la agregación, lo que dificulta aún más la eficiencia del entrenamiento de RL. Inspirándonos en la Optimización de Políticas de Muestreo Dinámico (DAPO), que mejora la eficiencia del entrenamiento de RL al filtrar ejecuciones ineficaces con ventajas cercanas a cero, proponemos la Optimización de Políticas Desacoplada por Recompensa de Grupo Dinámico (GD²PO). Específicamente, GD²PO emplea un mecanismo de filtrado consciente de conflictos para enmascarar las ejecuciones que sufren un fuerte desacuerdo entre recompensas. Al evitar que señales conflictivas se cancelen mutuamente, esta estrategia de enmascaramiento preserva y amplifica la magnitud de las ventajas efectivas de RL, acelerando así significativamente la eficiencia del aprendizaje. Además, introducimos un reponderación a nivel de consulta para ajustar dinámicamente la intensidad de actualización de cada consulta según su consenso global de recompensa. Experimentos en diversos escenarios de múltiples recompensas, incluyendo la invocación de herramientas y la alineación de preferencias humanas, demuestran que GD²PO supera de manera consistente y significativa a las líneas base existentes. El código está disponible en https://github.com/Qwen-Applications/GD2PO.

English

As LLMs advance, post-training reinforcement learning (RL) increasingly relies on multi-dimensional rewards to cultivate comprehensive capabilities. This shift demands new algorithms capable of optimizing diverse and potentially competing objectives simultaneously. To address this, existing methods such as Group reward-Decoupled Policy Optimization (GDPO) decompose the overall score into independent reward groups, then compute the RL loss separately within each group. However, this strategy still encounters multi-reward conflicts: a single rollout can yield positive advantages on certain reward dimensions but negative ones on others, causing opposing signals to cancel each other out during aggregation, further hindering RL training efficiency. Inspired by Dynamic sAmpling Policy Optimization (DAPO), which improves RL training efficiency by filtering out ineffective rollouts with near-zero advantages, we propose Group-Dynamic reward-Decoupled Policy Optimization (GD^2PO). Specifically, GD^2PO employs a conflict-aware filtering mechanism to mask out rollouts suffering from severe reward-wise disagreement. By preventing conflicting signals from canceling each other out, this masking strategy preserves and enhances the magnitude of effective RL advantages, thereby significantly accelerating learning efficiency. Furthermore, we introduce query-level reweighting to dynamically adjust the update intensity of each query based on its overall reward consensus. Experiments on various multi-reward scenarios, including tool calling and human preference alignment, demonstrate that GD^2PO consistently and significantly outperforms existing baselines. The code is available at https://github.com/Qwen-Applications/GD2PO.