GD^2PO: Mitigando Conflitos de Múltiplas Recompensas via Otimização de Política com Desacoplamento de Recompensa Dinâmica de Grupo

Resumo

À medida que os LLMs avançam, o aprendizado por reforço (RL) pós-treinamento depende cada vez mais de recompensas multidimensionais para cultivar capacidades abrangentes. Essa mudança exige novos algoritmos capazes de otimizar objetivos diversos e potencialmente concorrentes simultaneamente. Para enfrentar isso, métodos existentes, como a Otimização de Política Desacoplada de Recompensas em Grupo (GDPO), decompõem a pontuação geral em grupos de recompensas independentes e, em seguida, calculam a perda de RL separadamente dentro de cada grupo. No entanto, essa estratégia ainda encontra conflitos de múltiplas recompensas: um único rollout pode gerar vantagens positivas em certas dimensões de recompensa, mas negativas em outras, fazendo com que sinais opostos se cancelem durante a agregação, prejudicando ainda mais a eficiência do treinamento de RL. Inspirados pela Otimização de Política por Amostragem Dinâmica (DAPO), que melhora a eficiência do treinamento de RL ao filtrar rollouts ineficazes com vantagens próximas de zero, propomos a Otimização de Política Desacoplada de Recompensas Dinâmicas em Grupo (GD^2PO). Especificamente, o GD^2PO emprega um mecanismo de filtragem ciente de conflitos para mascarar rollouts que sofrem de forte discordância entre recompensas. Ao impedir que sinais conflitantes se cancelem, essa estratégia de mascaramento preserva e amplia a magnitude das vantagens efetivas de RL, acelerando significativamente a eficiência do aprendizado. Além disso, introduzimos a reponderação em nível de consulta para ajustar dinamicamente a intensidade de atualização de cada consulta com base no consenso geral de suas recompensas. Experimentos em diversos cenários de múltiplas recompensas, incluindo chamada de ferramentas e alinhamento de preferências humanas, demonstram que o GD^2PO supera de forma consistente e significativa as linhas de base existentes. O código está disponível em https://github.com/Qwen-Applications/GD2PO.

English

As LLMs advance, post-training reinforcement learning (RL) increasingly relies on multi-dimensional rewards to cultivate comprehensive capabilities. This shift demands new algorithms capable of optimizing diverse and potentially competing objectives simultaneously. To address this, existing methods such as Group reward-Decoupled Policy Optimization (GDPO) decompose the overall score into independent reward groups, then compute the RL loss separately within each group. However, this strategy still encounters multi-reward conflicts: a single rollout can yield positive advantages on certain reward dimensions but negative ones on others, causing opposing signals to cancel each other out during aggregation, further hindering RL training efficiency. Inspired by Dynamic sAmpling Policy Optimization (DAPO), which improves RL training efficiency by filtering out ineffective rollouts with near-zero advantages, we propose Group-Dynamic reward-Decoupled Policy Optimization (GD^2PO). Specifically, GD^2PO employs a conflict-aware filtering mechanism to mask out rollouts suffering from severe reward-wise disagreement. By preventing conflicting signals from canceling each other out, this masking strategy preserves and enhances the magnitude of effective RL advantages, thereby significantly accelerating learning efficiency. Furthermore, we introduce query-level reweighting to dynamically adjust the update intensity of each query based on its overall reward consensus. Experiments on various multi-reward scenarios, including tool calling and human preference alignment, demonstrate that GD^2PO consistently and significantly outperforms existing baselines. The code is available at https://github.com/Qwen-Applications/GD2PO.