ChatPaper.aiChatPaper

GDPO: 다중 보상 강화학습 최적화를 위한 그룹 보상-분리 정규화 정책 최적화

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

January 8, 2026
저자: Shih-Yang Liu, Xin Dong, Ximing Lu, Shizhe Diao, Peter Belcak, Mingjie Liu, Min-Hung Chen, Hongxu Yin, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Yejin Choi, Jan Kautz, Pavlo Molchanov
cs.AI

초록

언어 모델의 능력이 점차 향상됨에 따라 사용자들은 정확한 응답뿐만 아니라 다양한 시나리오에서의 다양한 인간 선호도에 부합하는 행동을 기대하게 되었습니다. 이를 달성하기 위해 강화 학습(Reinforcement learning, RL) 파이프라인은 각기 다른 선호도를 반영하는 여러 개의 보상을 통합하여 모델이 이러한 바람직한 행동을 학습하도록 유도하기 시작했습니다. 그러나 최근 연구들은 다중 보상 설정에서 Group Relative Policy Optimization(GRPO)의 적용을 당연시하며 그 적절성을 검토하지 않는 경향이 있습니다. 본 논문에서는 서로 다른 롤아웃(rollout) 보상 조합을 정규화하기 위해 GRPO를 직접 적용할 경우, 이들이 동일한 어드밴티지(advantage) 값으로 수렴하여 학습 신호의 분해능(resolution)을 저하시키고, 결과적으로 최적에 못 미치는 수렴 또는 경우에 따라 조기 학습 실패를 초래함을 보여줍니다. 이에 우리는 Group reward-Decoupled Normalization Policy Optimization(GDPO)이라는 새로운 정책 최적화 방법을 제안합니다. GDPO는 개별 보상의 정규화를 분리(decoupling)하여 이러한 문제를 해결하며, 보상 간 상대적 차이를 더 충실히 보존하고 더 정확한 다중 보상 최적화를 가능하게 함과 동시에 학습 안정성을 크게 향상시킵니다. 우리는 GDPO와 GRPO를 도구 호출(tool calling), 수학 추론(math reasoning), 코드 추론(coding reasoning)이라는 세 가지 과제에서 비교하여 정확도 지표(정확도, 버그 비율)와 제약 조건 준수 지표(형식, 길이)를 모두 평가했습니다. 모든 설정에서 GDPO는 GRPO를 지속적으로 능가하며, 다중 보상 강화 학습 최적화에서의 효과성과 일반화 가능성을 입증했습니다.
English
As language models become increasingly capable, users expect them to provide not only accurate responses but also behaviors aligned with diverse human preferences across a variety of scenarios. To achieve this, Reinforcement learning (RL) pipelines have begun incorporating multiple rewards, each capturing a distinct preference, to guide models toward these desired behaviors. However, recent work has defaulted to apply Group Relative Policy Optimization (GRPO) under multi-reward setting without examining its suitability. In this paper, we demonstrate that directly applying GRPO to normalize distinct rollout reward combinations causes them to collapse into identical advantage values, reducing the resolution of the training signal and resulting in suboptimal convergence and, in some cases, early training failure. We then introduce Group reward-Decoupled Normalization Policy Optimization (GDPO), a new policy optimization method to resolve these issues by decoupling the normalization of individual rewards, more faithfully preserving their relative differences and enabling more accurate multi-reward optimization, along with substantially improved training stability. We compare GDPO with GRPO across three tasks: tool calling, math reasoning, and coding reasoning, evaluating both correctness metrics (accuracy, bug ratio) and constraint adherence metrics (format, length). Across all settings, GDPO consistently outperforms GRPO, demonstrating its effectiveness and generalizability for multi-reward reinforcement learning optimization.
PDF965January 10, 2026