GDPO: Optimización de Políticas con Normalización Desacoplada de Recompensas de Grupo para la Optimización de RL con Múltiples Recompensas
GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization
January 8, 2026
Autores: Shih-Yang Liu, Xin Dong, Ximing Lu, Shizhe Diao, Peter Belcak, Mingjie Liu, Min-Hung Chen, Hongxu Yin, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Yejin Choi, Jan Kautz, Pavlo Molchanov
cs.AI
Resumen
A medida que los modelos lingüísticos adquieren mayores capacidades, los usuarios esperan que no solo proporcionen respuestas precisas, sino también comportamientos alineados con diversas preferencias humanas en una variedad de escenarios. Para lograrlo, las canalizaciones de aprendizaje por refuerzo (RL) han comenzado a incorporar múltiples recompensas, cada una capturando una preferencia distinta, para guiar a los modelos hacia estos comportamientos deseados. Sin embargo, trabajos recientes han aplicado por defecto la Optimización de Políticas con Relatividad Grupal (GRPO) en entornos de múltiples recompensas sin examinar su idoneidad. En este artículo, demostramos que aplicar directamente GRPO para normalizar combinaciones distintas de recompensas de *rollout* hace que estas colapsen en valores de ventaja idénticos, reduciendo la resolución de la señal de entrenamiento y resultando en una convergencia subóptima y, en algunos casos, en un fallo temprano del entrenamiento. Posteriormente, presentamos la Optimización de Políticas con Normalización Desacoplada de Recompensas Grupales (GDPO), un nuevo método de optimización de políticas que resuelve estos problemas desacoplando la normalización de las recompensas individuales, preservando de manera más fiel sus diferencias relativas y permitiendo una optimización multi-recompensa más precisa, junto con una estabilidad de entrenamiento sustancialmente mejorada. Comparamos GDPO con GRPO en tres tareas: uso de herramientas, razonamiento matemático y razonamiento de codificación, evaluando tanto métricas de corrección (precisión, ratio de errores) como métricas de adherencia a restricciones (formato, longitud). En todos los escenarios, GDPO supera consistentemente a GRPO, demostrando su eficacia y generalizabilidad para la optimización del aprendizaje por refuerzo con múltiples recompensas.
English
As language models become increasingly capable, users expect them to provide not only accurate responses but also behaviors aligned with diverse human preferences across a variety of scenarios. To achieve this, Reinforcement learning (RL) pipelines have begun incorporating multiple rewards, each capturing a distinct preference, to guide models toward these desired behaviors. However, recent work has defaulted to apply Group Relative Policy Optimization (GRPO) under multi-reward setting without examining its suitability. In this paper, we demonstrate that directly applying GRPO to normalize distinct rollout reward combinations causes them to collapse into identical advantage values, reducing the resolution of the training signal and resulting in suboptimal convergence and, in some cases, early training failure. We then introduce Group reward-Decoupled Normalization Policy Optimization (GDPO), a new policy optimization method to resolve these issues by decoupling the normalization of individual rewards, more faithfully preserving their relative differences and enabling more accurate multi-reward optimization, along with substantially improved training stability. We compare GDPO with GRPO across three tasks: tool calling, math reasoning, and coding reasoning, evaluating both correctness metrics (accuracy, bug ratio) and constraint adherence metrics (format, length). Across all settings, GDPO consistently outperforms GRPO, demonstrating its effectiveness and generalizability for multi-reward reinforcement learning optimization.