ChatPaper.aiChatPaper

Alignement sans récompense pour des objectifs conflictuels

Reward-free Alignment for Conflicting Objectives

February 2, 2026
papers.authors: Peter Chen, Xiaopeng Li, Xi Chen, Tianyi Lin
cs.AI

papers.abstract

Les méthodes d'alignement direct sont de plus en plus utilisées pour aligner les grands modèles de langage (LLM) avec les préférences humaines. Cependant, de nombreux problèmes d'alignement dans le monde réel impliquent des objectifs multiples et conflictuels, où une agrégation naïve des préférences peut entraîner un apprentissage instable et de mauvais compromis. En particulier, les méthodes à perte pondérée peuvent échouer à identifier des directions de mise à jour qui améliorent simultanément tous les objectifs, et les approches multi-objectifs existantes reposent souvent sur des modèles de récompense explicites, introduisant une complexité supplémentaire et déformant les préférences spécifiées par l'utilisateur. Les contributions de cet article sont doubles. Premièrement, nous proposons un cadre d'Alignement sans Récompense pour Objectifs Conflictuels (RACO) qui exploite directement des données de préférence par paires et résout les conflits de gradient via une nouvelle variante écrêtée de la descente de gradient évitant les conflits. Nous fournissons des garanties de convergence vers des points Pareto-critiques qui respectent les pondérations d'objectifs spécifiées par l'utilisateur, et montrons en outre que l'écrêtage peut strictement améliorer le taux de convergence dans le cadre à deux objectifs. Deuxièmement, nous améliorons notre méthode à l'aide d'heuristiques et menons des expériences pour démontrer la compatibilité du cadre proposé pour l'alignement des LLM. Des évaluations qualitatives et quantitatives sur des tâches de résumé multi-objectifs et d'alignement de la sécurité, menées sur plusieurs familles de LLM (Qwen 3, Llama 3, Gemma 3), montrent que notre méthode atteint constamment de meilleurs compromis de Pareto par rapport aux lignes de base existantes en alignement multi-objectifs.
English
Direct alignment methods are increasingly used to align large language models (LLMs) with human preferences. However, many real-world alignment problems involve multiple conflicting objectives, where naive aggregation of preferences can lead to unstable training and poor trade-offs. In particular, weighted loss methods may fail to identify update directions that simultaneously improve all objectives, and existing multi-objective approaches often rely on explicit reward models, introducing additional complexity and distorting user-specified preferences. The contributions of this paper are two-fold. First, we propose a Reward-free Alignment framework for Conflicted Objectives (RACO) that directly leverages pairwise preference data and resolves gradient conflicts via a novel clipped variant of conflict-averse gradient descent. We provide convergence guarantees to Pareto-critical points that respect user-specified objective weights, and further show that clipping can strictly improve convergence rate in the two-objective setting. Second, we improve our method using some heuristics and conduct experiments to demonstrate the compatibility of the proposed framework for LLM alignment. Both qualitative and quantitative evaluations on multi-objective summarization and safety alignment tasks across multiple LLM families (Qwen 3, Llama 3, Gemma 3) show that our method consistently achieves better Pareto trade-offs compared to existing multi-objective alignment baselines.
PDF11February 6, 2026