동적 보상 가중치를 통한 다중 목표 정렬 최적화 학습
Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting
September 14, 2025
저자: Yining Lu, Zilong Wang, Shiyang Li, Xin Liu, Changlong Yu, Qingyu Yin, Zhan Shi, Zixuan Zhang, Meng Jiang
cs.AI
초록
다중 목표 강화 학습 분야의 기존 연구들은 일반적으로 고정된 가중치를 사용한 선형 보상 스칼라화(linear reward scalarization)를 적용해 왔으며, 이는 이론적으로 비볼록(non-convex) 파레토 프론트(Pareto front)를 포착하지 못해 최적이 아닌 결과를 도출하는 것으로 입증되었습니다. 이러한 한계는 대규모 언어 모델의 온라인 선호도 정렬(online preference alignment)에서 특히 심각한 문제로 대두됩니다. 여기서 매개변수화된 정책에 의해 생성된 확률적 궤적은 매개변수에서 목표로의 고도로 비선형적이고 비볼록한 매핑을 생성하며, 단일 정적 가중치 체계로는 최적의 균형을 찾을 수 없습니다. 우리는 이러한 한계를 해결하기 위해 온라인 강화 학습 과정에서 보상 가중치를 적응적으로 조정하는 동적 보상 가중치(dynamic reward weighting)를 도입했습니다. 고정 가중치 보간에 의존하는 기존 접근법과 달리, 우리의 동적 가중치는 학습 중 목표를 지속적으로 균형 잡고 우선순위를 정하여 목표 공간에서 파레토 프론트의 효과적인 탐색을 가능하게 합니다. 우리는 점점 더 정교하고 일반화 가능한 두 가지 접근 방식을 소개합니다: (1) 하이퍼볼륨(hypervolume) 기반 가중치 적응과 (2) 그래디언트 기반 가중치 최적화로, 온라인 다중 목표 정렬을 위한 다용도 도구를 제공합니다. 우리의 광범위한 실험은 이들이 일반적으로 사용되는 온라인 강화 학습 알고리즘(GRPO, REINFORCE, RLOO 포함)과의 호환성, 여러 수학적 추론 데이터셋에서의 효과성, 그리고 다양한 모델 패밀리에 대한 적용 가능성을 입증하며, 고정 가중치 선형 스칼라화 기준선보다 더 적은 학습 단계로 파레토 우월(Pareto dominant) 솔루션을 일관되게 달성함을 보여줍니다.
English
Prior works in multi-objective reinforcement learning typically use linear
reward scalarization with fixed weights, which provably fail to capture
non-convex Pareto fronts and thus yield suboptimal results. This limitation
becomes especially critical in online preference alignment for large language
models. Here, stochastic trajectories generated by parameterized policies
create highly non-linear and non-convex mappings from parameters to objectives
that no single static weighting scheme can find optimal trade-offs. We address
this limitation by introducing dynamic reward weighting, which adaptively
adjusts reward weights during the online reinforcement learning process. Unlike
existing approaches that rely on fixed-weight interpolation, our dynamic
weighting continuously balances and prioritizes objectives in training,
facilitating effective exploration of Pareto fronts in objective space. We
introduce two approaches of increasing sophistication and generalizability: (1)
hypervolume-guided weight adaptation and (2) gradient-based weight
optimization, offering a versatile toolkit for online multi-objective
alignment. Our extensive experiments demonstrate their compatibility with
commonly used online reinforcement learning algorithms (including GRPO,
REINFORCE, and RLOO), effectiveness across multiple mathematical reasoning
datasets, and applicability to different model families, consistently achieving
Pareto dominant solutions with fewer training steps than fixed-weight linear
scalarization baselines.