ChatPaper.aiChatPaper

Apprendimento per Ottimizzare l'Allineamento Multi-Obiettivo Attraverso la Ponderazione Dinamica delle Ricompense

Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting

September 14, 2025
Autori: Yining Lu, Zilong Wang, Shiyang Li, Xin Liu, Changlong Yu, Qingyu Yin, Zhan Shi, Zixuan Zhang, Meng Jiang
cs.AI

Abstract

I lavori precedenti nell'apprendimento per rinforzo multi-obiettivo utilizzano tipicamente una scalarizzazione lineare delle ricompense con pesi fissi, che dimostrabilmente non riescono a catturare fronti di Pareto non convessi e producono quindi risultati subottimali. Questa limitazione diventa particolarmente critica nell'allineamento delle preferenze online per i modelli linguistici di grandi dimensioni. Qui, le traiettorie stocastiche generate da politiche parametrizzate creano mappature altamente non lineari e non convesse dai parametri agli obiettivi, per le quali nessuno schema di ponderazione statico può trovare compromessi ottimali. Affrontiamo questa limitazione introducendo una ponderazione dinamica delle ricompense, che adatta in modo adattivo i pesi delle ricompense durante il processo di apprendimento per rinforzo online. A differenza degli approcci esistenti che si basano su interpolazioni a pesi fissi, la nostra ponderazione dinamica bilancia e priorizza continuamente gli obiettivi durante l'addestramento, facilitando un'esplorazione efficace dei fronti di Pareto nello spazio degli obiettivi. Introduciamo due approcci di crescente sofisticazione e generalizzabilità: (1) adattamento dei pesi guidato dall'ipervolume e (2) ottimizzazione dei pesi basata su gradienti, offrendo un toolkit versatile per l'allineamento multi-obiettivo online. I nostri ampi esperimenti dimostrano la loro compatibilità con algoritmi di apprendimento per rinforzo online comunemente utilizzati (inclusi GRPO, REINFORCE e RLOO), l'efficacia su più dataset di ragionamento matematico e l'applicabilità a diverse famiglie di modelli, raggiungendo costantemente soluzioni Pareto dominanti con meno passi di addestramento rispetto alle baseline di scalarizzazione lineare a pesi fissi.
English
Prior works in multi-objective reinforcement learning typically use linear reward scalarization with fixed weights, which provably fail to capture non-convex Pareto fronts and thus yield suboptimal results. This limitation becomes especially critical in online preference alignment for large language models. Here, stochastic trajectories generated by parameterized policies create highly non-linear and non-convex mappings from parameters to objectives that no single static weighting scheme can find optimal trade-offs. We address this limitation by introducing dynamic reward weighting, which adaptively adjusts reward weights during the online reinforcement learning process. Unlike existing approaches that rely on fixed-weight interpolation, our dynamic weighting continuously balances and prioritizes objectives in training, facilitating effective exploration of Pareto fronts in objective space. We introduce two approaches of increasing sophistication and generalizability: (1) hypervolume-guided weight adaptation and (2) gradient-based weight optimization, offering a versatile toolkit for online multi-objective alignment. Our extensive experiments demonstrate their compatibility with commonly used online reinforcement learning algorithms (including GRPO, REINFORCE, and RLOO), effectiveness across multiple mathematical reasoning datasets, and applicability to different model families, consistently achieving Pareto dominant solutions with fewer training steps than fixed-weight linear scalarization baselines.
PDF71September 16, 2025