競合する目的のための報酬不要アラインメント
Reward-free Alignment for Conflicting Objectives
February 2, 2026
著者: Peter Chen, Xiaopeng Li, Xi Chen, Tianyi Lin
cs.AI
要旨
大規模言語モデル(LLM)を人間の選好に合わせるための直接アライメント手法の利用が増加している。しかし、現実世界の多くのアライメント問題は複数の相反する目的を伴い、選好を単純に集約すると学習が不安定になり、不適切なトレードオフが生じる可能性がある。特に、重み付き損失法は全ての目的を同時に改善する更新方向を見出せないことがあり、既存の多目的手法は明示的な報酬モデルに依存することが多く、追加の複雑さを導入しユーザ指定の選好を歪めてしまう。本論文の貢献は二つある。第一に、ペアワイズ選好データを直接利用し、新規に提案する衝突回避勾配降下法のクリップ変種によって勾配衝突を解決する、報酬モデル不要の相反目的アライメント枠組み(RACO)を提案する。我々は、ユーザ指定の目的重みを尊重するパレート臨界点への収束を保証し、さらに2目的設定においてクリッピングが収束率を厳密に改善し得ることを示す。第二に、ヒューリスティクスを用いて本手法を改良し、提案枠組みがLLMアライメントに適合することを実験により実証する。複数のLLMファミリー(Qwen 3, Llama 3, Gemma 3)を用いた多目的要約タスクと安全性アライメントタスクにおける定性的・定量的評価の両方において、本手法が既存の多目的アライメントベースラインと比較して一貫して優れたパレートトレードオフを達成することを示す。
English
Direct alignment methods are increasingly used to align large language models (LLMs) with human preferences. However, many real-world alignment problems involve multiple conflicting objectives, where naive aggregation of preferences can lead to unstable training and poor trade-offs. In particular, weighted loss methods may fail to identify update directions that simultaneously improve all objectives, and existing multi-objective approaches often rely on explicit reward models, introducing additional complexity and distorting user-specified preferences. The contributions of this paper are two-fold. First, we propose a Reward-free Alignment framework for Conflicted Objectives (RACO) that directly leverages pairwise preference data and resolves gradient conflicts via a novel clipped variant of conflict-averse gradient descent. We provide convergence guarantees to Pareto-critical points that respect user-specified objective weights, and further show that clipping can strictly improve convergence rate in the two-objective setting. Second, we improve our method using some heuristics and conduct experiments to demonstrate the compatibility of the proposed framework for LLM alignment. Both qualitative and quantitative evaluations on multi-objective summarization and safety alignment tasks across multiple LLM families (Qwen 3, Llama 3, Gemma 3) show that our method consistently achieves better Pareto trade-offs compared to existing multi-objective alignment baselines.