Belohnungsfreie Ausrichtung bei widersprüchlichen Zielen
Reward-free Alignment for Conflicting Objectives
February 2, 2026
papers.authors: Peter Chen, Xiaopeng Li, Xi Chen, Tianyi Lin
cs.AI
papers.abstract
Direkte Alignment-Methoden werden zunehmend eingesetzt, um große Sprachmodelle (LLMs) mit menschlichen Präferenzen abzugleichen. Viele reale Alignment-Probleme umfassen jedoch mehrere konfligierende Ziele, bei denen eine naive Aggregation von Präferenzen zu instabilem Training und schlechten Kompromissen führen kann. Insbesondere können gewichtete Verlustmethoden versagen, Update-Richtungen zu identifizieren, die alle Ziele gleichzeitig verbessern, und bestehende Multi-Objective-Ansätze verlassen sich oft auf explizite Reward-Modelle, was zusätzliche Komplexität einführt und benutzerspezifische Präferenzen verzerrt. Die Beiträge dieser Arbeit sind zweierlei. Erstens schlagen wir ein Reward-freies Alignment-Framework für konfligierende Ziele (RACO) vor, das direkt paarweise Präferenzdaten nutzt und Gradientenkonflikte durch eine neuartige beschnittene Variante des konfliktscheuen Gradientenabstiegs löst. Wir liefern Konvergenzgarantien zu Pareto-kritischen Punkten, die benutzerspezifische Zielgewichtungen respektieren, und zeigen weiterhin, dass das Beschneiden die Konvergenzrate im Zwei-Ziele-Setting strikt verbessern kann. Zweitens verbessern wir unsere Methode mithilfe einiger Heuristiken und führen Experimente durch, um die Kompatibilität des vorgeschlagenen Frameworks für das Alignment von LLMs zu demonstrieren. Sowohl qualitative als auch quantitative Auswertungen von Multi-Objective-Zusammenfassungs- und Safety-Alignment-Aufgaben über mehrere LLM-Familien hinweg (Qwen 3, Llama 3, Gemma 3) zeigen, dass unsere Methode im Vergleich zu bestehenden Multi-Objective-Alignment-Baselines konsistent bessere Pareto-Kompromisse erzielt.
English
Direct alignment methods are increasingly used to align large language models (LLMs) with human preferences. However, many real-world alignment problems involve multiple conflicting objectives, where naive aggregation of preferences can lead to unstable training and poor trade-offs. In particular, weighted loss methods may fail to identify update directions that simultaneously improve all objectives, and existing multi-objective approaches often rely on explicit reward models, introducing additional complexity and distorting user-specified preferences. The contributions of this paper are two-fold. First, we propose a Reward-free Alignment framework for Conflicted Objectives (RACO) that directly leverages pairwise preference data and resolves gradient conflicts via a novel clipped variant of conflict-averse gradient descent. We provide convergence guarantees to Pareto-critical points that respect user-specified objective weights, and further show that clipping can strictly improve convergence rate in the two-objective setting. Second, we improve our method using some heuristics and conduct experiments to demonstrate the compatibility of the proposed framework for LLM alignment. Both qualitative and quantitative evaluations on multi-objective summarization and safety alignment tasks across multiple LLM families (Qwen 3, Llama 3, Gemma 3) show that our method consistently achieves better Pareto trade-offs compared to existing multi-objective alignment baselines.