ChatPaper.aiChatPaper

Beloningsvrije Afstemming voor Conflicterende Doelstellingen

Reward-free Alignment for Conflicting Objectives

February 2, 2026
Auteurs: Peter Chen, Xiaopeng Li, Xi Chen, Tianyi Lin
cs.AI

Samenvatting

Directe alignatiemethoden worden in toenemende mate gebruikt om grote taalmmodellen (LLM's) af te stemmen op menselijke voorkeuren. Echter, veel alignmentproblemen in de praktijk omvatten meerdere conflicterende doelstellingen, waarbij een naïeve aggregatie van voorkeuren kan leiden tot instabiele training en suboptimale compromissen. Met name gewogen verliesmethoden kunnen falen in het identificeren van update-richtingen die alle doelstellingen simultaan verbeteren, en bestaande multi-objectieve benaderingen zijn vaak afhankelijk van expliciete beloningsmodellen, wat extra complexiteit introduceert en door de gebruiker gespecificeerde voorkeuren kan vertekenen. De bijdragen van dit artikel zijn tweeledig. Ten eerste stellen we een Reward-free Alignment Framework for Conflicted Objectives (RACO) voor dat rechtstreeks gebruikmaakt van paarsgewijze voorkeursdata en gradientconflicten oplost via een nieuwe geknipte variant van conflict-averse gradient descent. Wij geven convergentiegaranties naar Pareto-kritieke punten die de door de gebruiker gespecificeerde doelgewichten respecteren, en tonen verder aan dat knippen de convergentiesnelheid in de twee-doelstellingensetting strikt kan verbeteren. Ten tweede verbeteren we onze methode met behulp van enkele heuristieken en voeren we experimenten uit om de compatibiliteit van het voorgestelde framework voor LLM-alignment aan te tonen. Zowel kwalitatieve als kwantitatieve evaluaties op multi-objectieve samenvattings- en veiligheidsalignmenttaken, uitgevoerd over meerdere LLM-families (Qwen 3, Llama 3, Gemma 3), tonen aan dat onze methode consistent betere Pareto-compromissen bereikt in vergelijking met bestaande multi-objectieve alignment-baselines.
English
Direct alignment methods are increasingly used to align large language models (LLMs) with human preferences. However, many real-world alignment problems involve multiple conflicting objectives, where naive aggregation of preferences can lead to unstable training and poor trade-offs. In particular, weighted loss methods may fail to identify update directions that simultaneously improve all objectives, and existing multi-objective approaches often rely on explicit reward models, introducing additional complexity and distorting user-specified preferences. The contributions of this paper are two-fold. First, we propose a Reward-free Alignment framework for Conflicted Objectives (RACO) that directly leverages pairwise preference data and resolves gradient conflicts via a novel clipped variant of conflict-averse gradient descent. We provide convergence guarantees to Pareto-critical points that respect user-specified objective weights, and further show that clipping can strictly improve convergence rate in the two-objective setting. Second, we improve our method using some heuristics and conduct experiments to demonstrate the compatibility of the proposed framework for LLM alignment. Both qualitative and quantitative evaluations on multi-objective summarization and safety alignment tasks across multiple LLM families (Qwen 3, Llama 3, Gemma 3) show that our method consistently achieves better Pareto trade-offs compared to existing multi-objective alignment baselines.
PDF11February 6, 2026