상충하는 목표를 위한 보상 없는 정렬
Reward-free Alignment for Conflicting Objectives
February 2, 2026
저자: Peter Chen, Xiaopeng Li, Xi Chen, Tianyi Lin
cs.AI
초록
직접 정렬 방법은 대규모 언어 모델(LLM)을 인간 선호도에 맞추기 위해 점점 더 많이 사용되고 있습니다. 그러나 많은 실제 정렬 문제는 상충되는 다중 목표를 포함하며, 단순한 선호도 집계는 불안정한 학습과 미흡한 균형(trade-off)을 초래할 수 있습니다. 특히, 가중 손실 방법은 모든 목표를 동시에 개선하는 업데이트 방향을 찾지 못할 수 있으며, 기존 다중 목표 접근법은 명시적 보상 모델에 의존하여 추가적인 복잡성을 도입하고 사용자가 지정한 선호도를 왜곡하는 경우가 많습니다. 본 논문의 기여는 두 가지입니다. 첫째, 우리는 쌍별(pairwise) 선호도 데이터를 직접 활용하고 새로운 클리핑(clipping) 변형을 적용한 갈등 회피 기울기 하강법을 통해 기울기 충돌을 해결하는 RACO(보상 없는 갈등 목표 정렬) 프레임워크를 제안합니다. 우리는 사용자가 지정한 목표 가중치를 존중하는 파레토 임계점(Pareto-critical point)으로의 수렴을 보장하며, 클리핑이 두 목표 설정에서 수렴 속도를 엄밀히 개선할 수 있음을 추가로 보여줍니다. 둘째, 우리는 몇 가지 휴리스틱을 사용하여 우리 방법을 개선하고 제안된 프레임워크의 LLM 정렬 적용 가능성을 입증하기 위한 실험을 수행합니다. 여러 LLM 패밀리(Qwen 3, Llama 3, Gemma 3)에 대한 다중 목표 요약 및 안전성 정렬 작업에 대한 정성적 및 정량적 평가 결과, 우리 방법이 기존 다중 목표 정렬 기준선(baseline) 대비 일관되게 더 나은 파레토 균형을 달성함을 보여줍니다.
English
Direct alignment methods are increasingly used to align large language models (LLMs) with human preferences. However, many real-world alignment problems involve multiple conflicting objectives, where naive aggregation of preferences can lead to unstable training and poor trade-offs. In particular, weighted loss methods may fail to identify update directions that simultaneously improve all objectives, and existing multi-objective approaches often rely on explicit reward models, introducing additional complexity and distorting user-specified preferences. The contributions of this paper are two-fold. First, we propose a Reward-free Alignment framework for Conflicted Objectives (RACO) that directly leverages pairwise preference data and resolves gradient conflicts via a novel clipped variant of conflict-averse gradient descent. We provide convergence guarantees to Pareto-critical points that respect user-specified objective weights, and further show that clipping can strictly improve convergence rate in the two-objective setting. Second, we improve our method using some heuristics and conduct experiments to demonstrate the compatibility of the proposed framework for LLM alignment. Both qualitative and quantitative evaluations on multi-objective summarization and safety alignment tasks across multiple LLM families (Qwen 3, Llama 3, Gemma 3) show that our method consistently achieves better Pareto trade-offs compared to existing multi-objective alignment baselines.