Alineación Libre de Recompensas para Objetivos en Conflicto
Reward-free Alignment for Conflicting Objectives
February 2, 2026
Autores: Peter Chen, Xiaopeng Li, Xi Chen, Tianyi Lin
cs.AI
Resumen
Los métodos de alineación directa se utilizan cada vez más para alinear los grandes modelos de lenguaje (LLM) con las preferencias humanas. Sin embargo, muchos problemas de alineación del mundo real implican múltiples objetivos en conflicto, donde la agregación ingenua de preferencias puede conducir a un entrenamiento inestable y a compensaciones deficientes. En particular, los métodos de pérdida ponderada pueden fallar en identificar direcciones de actualización que mejoren simultáneamente todos los objetivos, y los enfoques multiobjetivo existentes a menudo dependen de modelos de recompensa explícitos, introduciendo complejidad adicional y distorsionando las preferencias especificadas por el usuario. Las contribuciones de este artículo son dos. Primero, proponemos un marco de Alineación Libre de Recompensas para Objetivos en Conflicto (RACO, por sus siglas en inglés) que aprovecha directamente los datos de preferencias por pares y resuelve los conflictos de gradiente mediante una novedosa variante recortada del descenso de gradientes que evita conflictos. Proporcionamos garantías de convergencia hacia puntos Pareto-críticos que respetan los pesos objetivos especificados por el usuario, y además demostramos que el recorte puede mejorar estrictamente la tasa de convergencia en el escenario de dos objetivos. En segundo lugar, mejoramos nuestro método utilizando algunas heurísticas y realizamos experimentos para demostrar la compatibilidad del marco propuesto para la alineación de LLM. Tanto las evaluaciones cualitativas como cuantitativas en tareas de alineación multiobjetivo de resumen y seguridad, realizadas en múltiples familias de LLM (Qwen 3, Llama 3, Gemma 3), muestran que nuestro método logra consistentemente mejores compensaciones de Pareto en comparación con los métodos base existentes de alineación multiobjetivo.
English
Direct alignment methods are increasingly used to align large language models (LLMs) with human preferences. However, many real-world alignment problems involve multiple conflicting objectives, where naive aggregation of preferences can lead to unstable training and poor trade-offs. In particular, weighted loss methods may fail to identify update directions that simultaneously improve all objectives, and existing multi-objective approaches often rely on explicit reward models, introducing additional complexity and distorting user-specified preferences. The contributions of this paper are two-fold. First, we propose a Reward-free Alignment framework for Conflicted Objectives (RACO) that directly leverages pairwise preference data and resolves gradient conflicts via a novel clipped variant of conflict-averse gradient descent. We provide convergence guarantees to Pareto-critical points that respect user-specified objective weights, and further show that clipping can strictly improve convergence rate in the two-objective setting. Second, we improve our method using some heuristics and conduct experiments to demonstrate the compatibility of the proposed framework for LLM alignment. Both qualitative and quantitative evaluations on multi-objective summarization and safety alignment tasks across multiple LLM families (Qwen 3, Llama 3, Gemma 3) show that our method consistently achieves better Pareto trade-offs compared to existing multi-objective alignment baselines.