Alinhamento Livre de Recompensa para Objetivos Conflitantes
Reward-free Alignment for Conflicting Objectives
February 2, 2026
Autores: Peter Chen, Xiaopeng Li, Xi Chen, Tianyi Lin
cs.AI
Resumo
Os métodos de alinhamento direto são cada vez mais utilizados para alinhar grandes modelos de linguagem (LLMs) com as preferências humanas. No entanto, muitos problemas de alinhamento do mundo real envolvem múltiplos objetivos conflitantes, nos quais a agregação ingénua de preferências pode levar a treino instável e a compromissos (trade-offs) insatisfatórios. Em particular, os métodos de perda ponderada podem falhar na identificação de direções de atualização que melhorem simultaneamente todos os objetivos, e as abordagens multiobjetivo existentes frequentemente dependem de modelos de recompensa explícitos, introduzindo complexidade adicional e distorcendo as preferências especificadas pelo utilizador. As contribuições deste artigo são duplas. Primeiro, propomos uma estrutura de Alinhamento sem Recompensa para Objetivos Conflituosos (RACO) que aproveita diretamente dados de preferência pareada e resolve conflitos de gradiente através de uma nova variante, com corte (clipped), da descida de gradiente avessa a conflitos. Fornecemos garantias de convergência para pontos Pareto-críticos que respeitam os pesos objetivos especificados pelo utilizador, e mostramos ainda que o corte pode melhorar estritamente a taxa de convergência no cenário de dois objetivos. Segundo, melhoramos o nosso método usando algumas heurísticas e conduzimos experiências para demonstrar a compatibilidade da estrutura proposta para o alinhamento de LLMs. Avaliações qualitativas e quantitativas em tarefas de sumarização multiobjetivo e de alinhamento de segurança, realizadas em várias famílias de LLMs (Qwen 3, Llama 3, Gemma 3), mostram que o nosso método atinge consistentemente melhores compromissos de Pareto em comparação com as linhas de base existentes de alinhamento multiobjetivo.
English
Direct alignment methods are increasingly used to align large language models (LLMs) with human preferences. However, many real-world alignment problems involve multiple conflicting objectives, where naive aggregation of preferences can lead to unstable training and poor trade-offs. In particular, weighted loss methods may fail to identify update directions that simultaneously improve all objectives, and existing multi-objective approaches often rely on explicit reward models, introducing additional complexity and distorting user-specified preferences. The contributions of this paper are two-fold. First, we propose a Reward-free Alignment framework for Conflicted Objectives (RACO) that directly leverages pairwise preference data and resolves gradient conflicts via a novel clipped variant of conflict-averse gradient descent. We provide convergence guarantees to Pareto-critical points that respect user-specified objective weights, and further show that clipping can strictly improve convergence rate in the two-objective setting. Second, we improve our method using some heuristics and conduct experiments to demonstrate the compatibility of the proposed framework for LLM alignment. Both qualitative and quantitative evaluations on multi-objective summarization and safety alignment tasks across multiple LLM families (Qwen 3, Llama 3, Gemma 3) show that our method consistently achieves better Pareto trade-offs compared to existing multi-objective alignment baselines.