GDPO: Otimização de Políticas com Normalização Desacoplada de Recompensa de Grupo para Otimização de RL com Múltiplas Recompensas

Resumo

À medida que os modelos de linguagem se tornam cada vez mais capazes, os usuários esperam que eles forneçam não apenas respostas precisas, mas também comportamentos alinhados com diversas preferências humanas em uma variedade de cenários. Para alcançar isso, os pipelines de Aprendizado por Reforço (RL) começaram a incorporar múltiplas recompensas, cada uma capturando uma preferência distinta, para orientar os modelos em direção a esses comportamentos desejados. No entanto, trabalhos recentes têm aplicado por padrão a Otimização de Política por Grupo Relativo (GRPO) em configurações de múltiplas recompensas sem examinar sua adequação. Neste artigo, demonstramos que a aplicação direta do GRPO para normalizar combinações distintas de recompensa de *rollout* faz com que elas colapsem em valores de vantagem idênticos, reduzindo a resolução do sinal de treinamento e resultando em convergência subótima e, em alguns casos, em falha precoce do treinamento. Em seguida, introduzimos a Otimização de Política com Normalização Desacoplada de Recompensa de Grupo (GDPO), um novo método de otimização de política para resolver esses problemas, desacoplando a normalização de recompensas individuais, preservando de forma mais fiel suas diferenças relativas e permitindo uma otimização de múltiplas recompensas mais precisa, juntamente com uma estabilidade de treinamento substancialmente melhorada. Comparamos o GDPO com o GRPO em três tarefas: chamada de ferramentas, raciocínio matemático e raciocínio de codificação, avaliando tanto métricas de correção (precisão, taxa de bugs) quanto métricas de aderência a restrições (formato, comprimento). Em todas as configurações, o GDPO supera consistentemente o GRPO, demonstrando sua eficácia e generalizabilidade para a otimização de aprendizado por reforço com múltiplas recompensas.

English

As language models become increasingly capable, users expect them to provide not only accurate responses but also behaviors aligned with diverse human preferences across a variety of scenarios. To achieve this, Reinforcement learning (RL) pipelines have begun incorporating multiple rewards, each capturing a distinct preference, to guide models toward these desired behaviors. However, recent work has defaulted to apply Group Relative Policy Optimization (GRPO) under multi-reward setting without examining its suitability. In this paper, we demonstrate that directly applying GRPO to normalize distinct rollout reward combinations causes them to collapse into identical advantage values, reducing the resolution of the training signal and resulting in suboptimal convergence and, in some cases, early training failure. We then introduce Group reward-Decoupled Normalization Policy Optimization (GDPO), a new policy optimization method to resolve these issues by decoupling the normalization of individual rewards, more faithfully preserving their relative differences and enabling more accurate multi-reward optimization, along with substantially improved training stability. We compare GDPO with GRPO across three tasks: tool calling, math reasoning, and coding reasoning, evaluating both correctness metrics (accuracy, bug ratio) and constraint adherence metrics (format, length). Across all settings, GDPO consistently outperforms GRPO, demonstrating its effectiveness and generalizability for multi-reward reinforcement learning optimization.

GDPO: Otimização de Políticas com Normalização Desacoplada de Recompensa de Grupo para Otimização de RL com Múltiplas Recompensas

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

Resumo

Support