ChatPaper.aiChatPaper

Беспоощровочное согласование конфликтующих целей

Reward-free Alignment for Conflicting Objectives

February 2, 2026
Авторы: Peter Chen, Xiaopeng Li, Xi Chen, Tianyi Lin
cs.AI

Аннотация

Методы прямого согласования все чаще используются для согласования больших языковых моделей (LLM) с человеческими предпочтениями. Однако многие реальные задачи согласования связаны с множеством конфликтующих целей, где наивная агрегация предпочтений может привести к нестабильности обучения и плохим компромиссным решениям. В частности, методы взвешенных потерь могут не выявлять направления обновления, которые одновременно улучшают все цели, а существующие многокритериальные подходы часто полагаются на явные модели вознаграждения, что вносит дополнительную сложность и искажает предпочтения, заданные пользователем. Вклад данной работы двунаправлен. Во-первых, мы предлагаем Безмасштабную (Свободную от вознаграждений) систему согласования для конфликтующих целей (RACO), которая непосредственно использует данные о парных предпочтениях и разрешает конфликты градиентов с помощью нового ограниченного варианта градиентного спуска, устойчивого к конфликтам. Мы предоставляем гарантии сходимости к Парето-критическим точкам, которые учитывают заданные пользователем веса целей, и дополнительно показываем, что ограничение может строго улучшить скорость сходимости в случае двух целей. Во-вторых, мы улучшаем наш метод с помощью некоторых эвристик и проводим эксперименты, демонстрирующие совместимость предложенной системы для согласования LLM. Как качественные, так и количественные оценки на задачах многокритериального суммаризации и согласования безопасности для различных семейств LLM (Qwen 3, Llama 3, Gemma 3) показывают, что наш метод последовательно достигает лучших Парето-компромиссов по сравнению с существующими базовыми методами многокритериального согласования.
English
Direct alignment methods are increasingly used to align large language models (LLMs) with human preferences. However, many real-world alignment problems involve multiple conflicting objectives, where naive aggregation of preferences can lead to unstable training and poor trade-offs. In particular, weighted loss methods may fail to identify update directions that simultaneously improve all objectives, and existing multi-objective approaches often rely on explicit reward models, introducing additional complexity and distorting user-specified preferences. The contributions of this paper are two-fold. First, we propose a Reward-free Alignment framework for Conflicted Objectives (RACO) that directly leverages pairwise preference data and resolves gradient conflicts via a novel clipped variant of conflict-averse gradient descent. We provide convergence guarantees to Pareto-critical points that respect user-specified objective weights, and further show that clipping can strictly improve convergence rate in the two-objective setting. Second, we improve our method using some heuristics and conduct experiments to demonstrate the compatibility of the proposed framework for LLM alignment. Both qualitative and quantitative evaluations on multi-objective summarization and safety alignment tasks across multiple LLM families (Qwen 3, Llama 3, Gemma 3) show that our method consistently achieves better Pareto trade-offs compared to existing multi-objective alignment baselines.
PDF11February 6, 2026