Aprendizaje para Optimizar la Alineación Multiobjetivo mediante la Ponderación Dinámica de Recompensas
Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting
September 14, 2025
Autores: Yining Lu, Zilong Wang, Shiyang Li, Xin Liu, Changlong Yu, Qingyu Yin, Zhan Shi, Zixuan Zhang, Meng Jiang
cs.AI
Resumen
Los trabajos previos en aprendizaje por refuerzo multiobjetivo suelen utilizar la escalarización lineal de recompensas con pesos fijos, lo que, como se ha demostrado, no logra capturar frentes de Pareto no convexos y, por lo tanto, produce resultados subóptimos. Esta limitación se vuelve especialmente crítica en la alineación de preferencias en línea para modelos de lenguaje grandes. Aquí, las trayectorias estocásticas generadas por políticas parametrizadas crean mapeos altamente no lineales y no convexos desde los parámetros hacia los objetivos, lo que hace que ningún esquema de ponderación estática pueda encontrar compensaciones óptimas. Abordamos esta limitación introduciendo la ponderación dinámica de recompensas, que ajusta adaptativamente los pesos de las recompensas durante el proceso de aprendizaje por refuerzo en línea. A diferencia de los enfoques existentes que dependen de la interpolación con pesos fijos, nuestra ponderación dinámica equilibra y prioriza continuamente los objetivos durante el entrenamiento, facilitando una exploración efectiva de los frentes de Pareto en el espacio de objetivos. Presentamos dos enfoques de creciente sofisticación y generalización: (1) adaptación de pesos guiada por hipervolumen y (2) optimización de pesos basada en gradientes, ofreciendo un conjunto de herramientas versátil para la alineación multiobjetivo en línea. Nuestros extensos experimentos demuestran su compatibilidad con algoritmos de aprendizaje por refuerzo en línea comúnmente utilizados (incluyendo GRPO, REINFORCE y RLOO), su efectividad en múltiples conjuntos de datos de razonamiento matemático y su aplicabilidad a diferentes familias de modelos, logrando consistentemente soluciones dominantes en Pareto con menos pasos de entrenamiento que las líneas base de escalarización lineal con pesos fijos.
English
Prior works in multi-objective reinforcement learning typically use linear
reward scalarization with fixed weights, which provably fail to capture
non-convex Pareto fronts and thus yield suboptimal results. This limitation
becomes especially critical in online preference alignment for large language
models. Here, stochastic trajectories generated by parameterized policies
create highly non-linear and non-convex mappings from parameters to objectives
that no single static weighting scheme can find optimal trade-offs. We address
this limitation by introducing dynamic reward weighting, which adaptively
adjusts reward weights during the online reinforcement learning process. Unlike
existing approaches that rely on fixed-weight interpolation, our dynamic
weighting continuously balances and prioritizes objectives in training,
facilitating effective exploration of Pareto fronts in objective space. We
introduce two approaches of increasing sophistication and generalizability: (1)
hypervolume-guided weight adaptation and (2) gradient-based weight
optimization, offering a versatile toolkit for online multi-objective
alignment. Our extensive experiments demonstrate their compatibility with
commonly used online reinforcement learning algorithms (including GRPO,
REINFORCE, and RLOO), effectiveness across multiple mathematical reasoning
datasets, and applicability to different model families, consistently achieving
Pareto dominant solutions with fewer training steps than fixed-weight linear
scalarization baselines.