Обучение оптимизации многокритериального согласования через динамическое взвешивание вознаграждений
Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting
September 14, 2025
Авторы: Yining Lu, Zilong Wang, Shiyang Li, Xin Liu, Changlong Yu, Qingyu Yin, Zhan Shi, Zixuan Zhang, Meng Jiang
cs.AI
Аннотация
Предыдущие работы в области многокритериального обучения с подкреплением обычно используют линейную скаляризацию вознаграждений с фиксированными весами, что, как доказано, не позволяет охватить невыпуклые фронты Парето и, следовательно, приводит к субоптимальным результатам. Это ограничение становится особенно критичным при онлайн-согласовании предпочтений для больших языковых моделей. Здесь стохастические траектории, генерируемые параметризованными политиками, создают высоко нелинейные и невыпуклые отображения параметров на целевые функции, для которых ни одна статическая схема взвешивания не может найти оптимальные компромиссы. Мы устраняем это ограничение, вводя динамическое взвешивание вознаграждений, которое адаптивно корректирует веса в процессе онлайн-обучения с подкреплением. В отличие от существующих подходов, основанных на интерполяции с фиксированными весами, наше динамическое взвешивание непрерывно балансирует и расставляет приоритеты между целями в процессе обучения, способствуя эффективному исследованию фронтов Парето в пространстве целевых функций. Мы представляем два подхода, возрастающих по сложности и обобщаемости: (1) адаптацию весов на основе гиперобъема и (2) оптимизацию весов на основе градиентов, предлагая универсальный инструментарий для онлайн-согласования многокритериальных задач. Наши обширные эксперименты демонстрируют их совместимость с широко используемыми алгоритмами онлайн-обучения с подкреплением (включая GRPO, REINFORCE и RLOO), эффективность на множестве наборов данных для математических рассуждений и применимость к различным семействам моделей, стабильно достигая доминирующих решений Парето с меньшим количеством шагов обучения по сравнению с базовыми методами линейной скаляризации с фиксированными весами.
English
Prior works in multi-objective reinforcement learning typically use linear
reward scalarization with fixed weights, which provably fail to capture
non-convex Pareto fronts and thus yield suboptimal results. This limitation
becomes especially critical in online preference alignment for large language
models. Here, stochastic trajectories generated by parameterized policies
create highly non-linear and non-convex mappings from parameters to objectives
that no single static weighting scheme can find optimal trade-offs. We address
this limitation by introducing dynamic reward weighting, which adaptively
adjusts reward weights during the online reinforcement learning process. Unlike
existing approaches that rely on fixed-weight interpolation, our dynamic
weighting continuously balances and prioritizes objectives in training,
facilitating effective exploration of Pareto fronts in objective space. We
introduce two approaches of increasing sophistication and generalizability: (1)
hypervolume-guided weight adaptation and (2) gradient-based weight
optimization, offering a versatile toolkit for online multi-objective
alignment. Our extensive experiments demonstrate their compatibility with
commonly used online reinforcement learning algorithms (including GRPO,
REINFORCE, and RLOO), effectiveness across multiple mathematical reasoning
datasets, and applicability to different model families, consistently achieving
Pareto dominant solutions with fewer training steps than fixed-weight linear
scalarization baselines.