Descubriendo la Interferencia entre Objetivos en la Alineación Multiobjetivo

Resumen

Estudiamos un modo de fallo persistente en la alineación multi-objetivo para modelos de lenguaje grandes (LLM): el entrenamiento mejora el rendimiento solo en un subconjunto de objetivos mientras causa el deterioro de otros. Formalizamos este fenómeno como interferencia cruzada de objetivos y realizamos el primer estudio sistemático a través de algoritmos de scalarización clásicos, demostrando que la interferencia es generalizada y exhibe una fuerte dependencia del modelo. Para explicar este fenómeno, derivamos una ley de covarianza local que muestra que un objetivo mejora en primer orden cuando su recompensa exhibe una covarianza positiva con la puntuación scalarizada. Extendemos este análisis a los objetivos sustitutivos recortados utilizados en la alineación moderna, demostrando que la ley de covarianza sigue siendo válida bajo condiciones suaves a pesar del recorte. Basándonos en este análisis, proponemos la Adaptación de Peso Dirigida por Covarianza (CTWA), un método plug-and-play que mantiene una covarianza positiva entre las recompensas de los objetivos y la señal de entrenamiento para mitigar efectivamente la interferencia cruzada de objetivos. Finalmente, complementamos estas condiciones de mejora local con un análisis de convergencia global bajo la condición de Polyak-Łojasiewicz, estableciendo cuándo la optimización scalarizada no convexa logra convergencia global y cómo la interferencia cruzada de objetivos depende de propiedades geométricas específicas del modelo.

English

We study a persistent failure mode in multi-objective alignment for large language models (LLMs): training improves performance on only a subset of objectives while causing others to degrade. We formalize this phenomenon as cross-objective interference and conduct the first systematic study across classic scalarization algorithms, showing that interference is pervasive and exhibits strong model dependence. To explain this phenomenon, we derive a local covariance law showing that an objective improves at first order when its reward exhibits positive covariance with the scalarized score. We extend this analysis to clipped surrogate objectives used in modern alignment, demonstrating that the covariance law remains valid under mild conditions despite clipping. Building on this analysis, we propose Covariance Targeted Weight Adaptation (CTWA), a plug-and-play method that maintains positive covariance between objective rewards and the training signal to effectively mitigate cross-objective interference. Finally, we complement these local improvement conditions with a global convergence analysis under the Polyak--Łojasiewicz condition, establishing when non-convex scalarized optimization achieves global convergence and how cross-objective interference depends on specific model geometric properties.