Leren om multi-objectieve afstemming te optimaliseren via dynamische beloningsweging
Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting
September 14, 2025
Auteurs: Yining Lu, Zilong Wang, Shiyang Li, Xin Liu, Changlong Yu, Qingyu Yin, Zhan Shi, Zixuan Zhang, Meng Jiang
cs.AI
Samenvatting
Eerdere werken in multi-doelstelling reinforcement learning gebruiken typisch lineaire beloningsscalarisatie met vaste gewichten, wat bewezen niet in staat is om niet-convexe Pareto-fronten vast te leggen en dus suboptimale resultaten oplevert. Deze beperking wordt vooral kritisch bij online voorkeursafstemming voor grote taalmodellen. Hier creëren stochastische trajecten gegenereerd door geparametriseerde beleidsregels sterk niet-lineaire en niet-convexe afbeeldingen van parameters naar doelstellingen, waar geen enkel statisch gewichtingsschema optimale afwegingen kan vinden. Wij pakken deze beperking aan door dynamische beloningsgewichting te introduceren, die de beloningsgewichten adaptief aanpast tijdens het online reinforcement learning-proces. In tegenstelling tot bestaande benaderingen die vertrouwen op vaste-gewicht interpolatie, balanceert en prioriteert onze dynamische gewichting continu doelstellingen tijdens de training, wat effectieve exploratie van Pareto-fronten in de doelruimte mogelijk maakt. Wij introduceren twee benaderingen van toenemende verfijning en generaliseerbaarheid: (1) hypervolume-geleide gewichtsaanpassing en (2) op gradienten gebaseerde gewichtsoptimalisatie, wat een veelzijdige toolkit biedt voor online multi-doelstelling afstemming. Onze uitgebreide experimenten tonen hun compatibiliteit met veelgebruikte online reinforcement learning-algoritmen (inclusief GRPO, REINFORCE en RLOO), effectiviteit over meerdere wiskundige redeneerdatasets, en toepasbaarheid op verschillende modelfamilies, waarbij consequent Pareto-dominante oplossingen worden bereikt met minder trainingsstappen dan vaste-gewicht lineaire scalariseringsbaselines.
English
Prior works in multi-objective reinforcement learning typically use linear
reward scalarization with fixed weights, which provably fail to capture
non-convex Pareto fronts and thus yield suboptimal results. This limitation
becomes especially critical in online preference alignment for large language
models. Here, stochastic trajectories generated by parameterized policies
create highly non-linear and non-convex mappings from parameters to objectives
that no single static weighting scheme can find optimal trade-offs. We address
this limitation by introducing dynamic reward weighting, which adaptively
adjusts reward weights during the online reinforcement learning process. Unlike
existing approaches that rely on fixed-weight interpolation, our dynamic
weighting continuously balances and prioritizes objectives in training,
facilitating effective exploration of Pareto fronts in objective space. We
introduce two approaches of increasing sophistication and generalizability: (1)
hypervolume-guided weight adaptation and (2) gradient-based weight
optimization, offering a versatile toolkit for online multi-objective
alignment. Our extensive experiments demonstrate their compatibility with
commonly used online reinforcement learning algorithms (including GRPO,
REINFORCE, and RLOO), effectiveness across multiple mathematical reasoning
datasets, and applicability to different model families, consistently achieving
Pareto dominant solutions with fewer training steps than fixed-weight linear
scalarization baselines.