Aprendendo a Otimizar o Alinhamento Multiobjetivo Através da Ponderação Dinâmica de Recompensas
Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting
September 14, 2025
Autores: Yining Lu, Zilong Wang, Shiyang Li, Xin Liu, Changlong Yu, Qingyu Yin, Zhan Shi, Zixuan Zhang, Meng Jiang
cs.AI
Resumo
Trabalhos anteriores em aprendizado por reforço multiobjetivo geralmente utilizam escalarização linear de recompensas com pesos fixos, o que comprovadamente falha em capturar frentes de Pareto não convexas e, portanto, produz resultados subótimos. Essa limitação torna-se especialmente crítica no alinhamento de preferências online para modelos de linguagem de grande escala. Aqui, trajetórias estocásticas geradas por políticas parametrizadas criam mapeamentos altamente não lineares e não convexos dos parâmetros para os objetivos, para os quais nenhum esquema de ponderação estática única pode encontrar compensações ótimas. Abordamos essa limitação introduzindo a ponderação dinâmica de recompensas, que ajusta adaptativamente os pesos das recompensas durante o processo de aprendizado por reforço online. Diferente das abordagens existentes que dependem de interpolação com pesos fixos, nossa ponderação dinâmica equilibra e prioriza continuamente os objetivos durante o treinamento, facilitando a exploração eficaz das frentes de Pareto no espaço de objetivos. Introduzimos duas abordagens de crescente sofisticação e generalizabilidade: (1) adaptação de pesos guiada por hipervolume e (2) otimização de pesos baseada em gradiente, oferecendo um conjunto de ferramentas versátil para o alinhamento multiobjetivo online. Nossos experimentos extensivos demonstram sua compatibilidade com algoritmos comumente usados de aprendizado por reforço online (incluindo GRPO, REINFORCE e RLOO), eficácia em múltiplos conjuntos de dados de raciocínio matemático e aplicabilidade a diferentes famílias de modelos, consistentemente alcançando soluções Pareto dominantes com menos etapas de treinamento do que as linhas de base de escalarização linear com pesos fixos.
English
Prior works in multi-objective reinforcement learning typically use linear
reward scalarization with fixed weights, which provably fail to capture
non-convex Pareto fronts and thus yield suboptimal results. This limitation
becomes especially critical in online preference alignment for large language
models. Here, stochastic trajectories generated by parameterized policies
create highly non-linear and non-convex mappings from parameters to objectives
that no single static weighting scheme can find optimal trade-offs. We address
this limitation by introducing dynamic reward weighting, which adaptively
adjusts reward weights during the online reinforcement learning process. Unlike
existing approaches that rely on fixed-weight interpolation, our dynamic
weighting continuously balances and prioritizes objectives in training,
facilitating effective exploration of Pareto fronts in objective space. We
introduce two approaches of increasing sophistication and generalizability: (1)
hypervolume-guided weight adaptation and (2) gradient-based weight
optimization, offering a versatile toolkit for online multi-objective
alignment. Our extensive experiments demonstrate their compatibility with
commonly used online reinforcement learning algorithms (including GRPO,
REINFORCE, and RLOO), effectiveness across multiple mathematical reasoning
datasets, and applicability to different model families, consistently achieving
Pareto dominant solutions with fewer training steps than fixed-weight linear
scalarization baselines.