Lernen der Optimierung der Multi-Objective-Ausrichtung durch dynamische Gewichtung der Belohnung
Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting
September 14, 2025
papers.authors: Yining Lu, Zilong Wang, Shiyang Li, Xin Liu, Changlong Yu, Qingyu Yin, Zhan Shi, Zixuan Zhang, Meng Jiang
cs.AI
papers.abstract
Frühere Arbeiten im Bereich des Multi-Objective Reinforcement Learning verwenden typischerweise lineare Belohnungsskalarisierung mit festen Gewichtungen, die nachweislich nicht in der Lage sind, nicht-konvexe Pareto-Fronten zu erfassen und somit suboptimale Ergebnisse liefern. Diese Einschränkung wird besonders kritisch bei der Online-Präferenzabstimmung für große Sprachmodelle. Hier erzeugen stochastische Trajektorien, die durch parametrisierte Policies generiert werden, hochgradig nicht-lineare und nicht-konvexe Abbildungen von Parametern zu Zielen, die kein einzelnes statisches Gewichtungsschema optimal ausgleichen kann. Wir begegnen dieser Einschränkung durch die Einführung dynamischer Belohnungsgewichtung, die die Belohnungsgewichte während des Online-Reinforcement-Learning-Prozesses adaptiv anpasst. Im Gegensatz zu bestehenden Ansätzen, die auf feste Gewichtungsinterpolation setzen, gleicht unsere dynamische Gewichtung kontinuierlich die Ziele aus und priorisiert sie während des Trainings, wodurch eine effektive Exploration der Pareto-Fronten im Zielraum ermöglicht wird. Wir führen zwei Ansätze mit zunehmender Komplexität und Generalisierbarkeit ein: (1) hypervolumen-gesteuerte Gewichtungsanpassung und (2) gradientenbasierte Gewichtungsoptimierung, die ein vielseitiges Werkzeug für die Online-Multi-Objective-Abgleichung bieten. Unsere umfangreichen Experimente demonstrieren ihre Kompatibilität mit häufig verwendeten Online-Reinforcement-Learning-Algorithmen (einschließlich GRPO, REINFORCE und RLOO), ihre Wirksamkeit über mehrere mathematische Reasoning-Datensätze hinweg sowie ihre Anwendbarkeit auf verschiedene Modellfamilien, wobei sie durchweg Pareto-dominante Lösungen mit weniger Trainingsschritten als festgewichtete lineare Skalarisierungsbaselines erreichen.
English
Prior works in multi-objective reinforcement learning typically use linear
reward scalarization with fixed weights, which provably fail to capture
non-convex Pareto fronts and thus yield suboptimal results. This limitation
becomes especially critical in online preference alignment for large language
models. Here, stochastic trajectories generated by parameterized policies
create highly non-linear and non-convex mappings from parameters to objectives
that no single static weighting scheme can find optimal trade-offs. We address
this limitation by introducing dynamic reward weighting, which adaptively
adjusts reward weights during the online reinforcement learning process. Unlike
existing approaches that rely on fixed-weight interpolation, our dynamic
weighting continuously balances and prioritizes objectives in training,
facilitating effective exploration of Pareto fronts in objective space. We
introduce two approaches of increasing sophistication and generalizability: (1)
hypervolume-guided weight adaptation and (2) gradient-based weight
optimization, offering a versatile toolkit for online multi-objective
alignment. Our extensive experiments demonstrate their compatibility with
commonly used online reinforcement learning algorithms (including GRPO,
REINFORCE, and RLOO), effectiveness across multiple mathematical reasoning
datasets, and applicability to different model families, consistently achieving
Pareto dominant solutions with fewer training steps than fixed-weight linear
scalarization baselines.