Apprentissage de l'Optimisation de l'Alignement Multi-Objectif par Pondération Dynamique des Récompenses
Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting
September 14, 2025
papers.authors: Yining Lu, Zilong Wang, Shiyang Li, Xin Liu, Changlong Yu, Qingyu Yin, Zhan Shi, Zixuan Zhang, Meng Jiang
cs.AI
papers.abstract
Les travaux antérieurs en apprentissage par renforcement multi-objectif utilisent généralement une scalarisation linéaire des récompenses avec des poids fixes, ce qui s'avère incapable de capturer des fronts de Pareto non convexes et produit donc des résultats sous-optimaux. Cette limitation devient particulièrement critique dans l'alignement des préférences en ligne pour les grands modèles de langage. Ici, les trajectoires stochastiques générées par des politiques paramétrées créent des mappages hautement non linéaires et non convexes entre les paramètres et les objectifs, qu'aucun schéma de pondération statique ne peut optimiser. Nous abordons cette limitation en introduisant une pondération dynamique des récompenses, qui ajuste de manière adaptative les poids des récompenses pendant le processus d'apprentissage par renforcement en ligne. Contrairement aux approches existantes qui reposent sur une interpolation à poids fixes, notre pondération dynamique équilibre et priorise continuellement les objectifs pendant l'entraînement, facilitant une exploration efficace des fronts de Pareto dans l'espace des objectifs. Nous introduisons deux approches de sophistication et de généralisabilité croissantes : (1) une adaptation des poids guidée par l'hypervolume et (2) une optimisation des poids basée sur le gradient, offrant une boîte à outils polyvalente pour l'alignement multi-objectif en ligne. Nos expériences approfondies démontrent leur compatibilité avec les algorithmes d'apprentissage par renforcement en ligne couramment utilisés (y compris GRPO, REINFORCE et RLOO), leur efficacité sur plusieurs ensembles de données de raisonnement mathématique, et leur applicabilité à différentes familles de modèles, atteignant systématiquement des solutions Pareto dominantes avec moins d'étapes d'entraînement que les bases de référence de scalarisation linéaire à poids fixes.
English
Prior works in multi-objective reinforcement learning typically use linear
reward scalarization with fixed weights, which provably fail to capture
non-convex Pareto fronts and thus yield suboptimal results. This limitation
becomes especially critical in online preference alignment for large language
models. Here, stochastic trajectories generated by parameterized policies
create highly non-linear and non-convex mappings from parameters to objectives
that no single static weighting scheme can find optimal trade-offs. We address
this limitation by introducing dynamic reward weighting, which adaptively
adjusts reward weights during the online reinforcement learning process. Unlike
existing approaches that rely on fixed-weight interpolation, our dynamic
weighting continuously balances and prioritizes objectives in training,
facilitating effective exploration of Pareto fronts in objective space. We
introduce two approaches of increasing sophistication and generalizability: (1)
hypervolume-guided weight adaptation and (2) gradient-based weight
optimization, offering a versatile toolkit for online multi-objective
alignment. Our extensive experiments demonstrate their compatibility with
commonly used online reinforcement learning algorithms (including GRPO,
REINFORCE, and RLOO), effectiveness across multiple mathematical reasoning
datasets, and applicability to different model families, consistently achieving
Pareto dominant solutions with fewer training steps than fixed-weight linear
scalarization baselines.