Allineamento senza Ricompensa per Obiettivi Conflittuali
Reward-free Alignment for Conflicting Objectives
February 2, 2026
Autori: Peter Chen, Xiaopeng Li, Xi Chen, Tianyi Lin
cs.AI
Abstract
I metodi di allineamento diretto sono sempre più utilizzati per allineare i grandi modelli linguistici (LLM) con le preferenze umane. Tuttavia, molti problemi di allineamento nel mondo reale coinvolgono molteplici obiettivi in conflitto, dove un'aggregazione ingenua delle preferenze può portare a un addestramento instabile e a compromessi scadenti. In particolare, i metodi basati su una funzione di perdita pesata possono fallire nell'identificare direzioni di aggiornamento che migliorino simultaneamente tutti gli obiettivi, e gli approcci multi-obiettivo esistenti spesso si basano su modelli di ricompensa espliciti, introducendo una complessità aggiuntiva e distorcendo le preferenze specificate dall'utente. I contributi di questo articolo sono duplici. In primo luogo, proponiamo un framework di Allineamento Senza Ricompensa per Obiettivi in Conflitto (RACO) che sfrutta direttamente dati di preferenza a coppie e risolve i conflitti di gradiente attraverso una nuova variante "clippata" della discesa del gradiente avversa ai conflitti. Forniamo garanzie di convergenza verso punti Pareto-critici che rispettano i pesi degli obiettivi specificati dall'utente, e mostriamo inoltre che il clipping può migliorare rigorosamente la velocità di convergenza nel caso a due obiettivi. In secondo luogo, miglioriamo il nostro metodo utilizzando alcune euristiche e conduciamo esperimenti per dimostrare la compatibilità del framework proposto per l'allineamento degli LLM. Valutazioni sia qualitative che quantitative su compiti di allineamento multi-obiettivo per riassunto e sicurezza, condotte su più famiglie di LLM (Qwen 3, Llama 3, Gemma 3), mostrano che il nostro metodo raggiunge costantemente migliori compromessi di Pareto rispetto ai baseline di allineamento multi-obiettivo esistenti.
English
Direct alignment methods are increasingly used to align large language models (LLMs) with human preferences. However, many real-world alignment problems involve multiple conflicting objectives, where naive aggregation of preferences can lead to unstable training and poor trade-offs. In particular, weighted loss methods may fail to identify update directions that simultaneously improve all objectives, and existing multi-objective approaches often rely on explicit reward models, introducing additional complexity and distorting user-specified preferences. The contributions of this paper are two-fold. First, we propose a Reward-free Alignment framework for Conflicted Objectives (RACO) that directly leverages pairwise preference data and resolves gradient conflicts via a novel clipped variant of conflict-averse gradient descent. We provide convergence guarantees to Pareto-critical points that respect user-specified objective weights, and further show that clipping can strictly improve convergence rate in the two-objective setting. Second, we improve our method using some heuristics and conduct experiments to demonstrate the compatibility of the proposed framework for LLM alignment. Both qualitative and quantitative evaluations on multi-objective summarization and safety alignment tasks across multiple LLM families (Qwen 3, Llama 3, Gemma 3) show that our method consistently achieves better Pareto trade-offs compared to existing multi-objective alignment baselines.