Mise en lumière des interférences entre objectifs dans l'alignement multi-objectifs

Résumé

Nous étudions un mode d'échec persistant dans l'alignement multi-objectif des grands modèles de langage (LLM) : l'entraînement améliore les performances sur seulement un sous-ensemble d'objectifs tout en dégradant les autres. Nous formalisons ce phénomène sous le nom d'**interférence inter-objectifs** et menons la première étude systématique sur les algorithmes classiques de scalarisation, montrant que cette interférence est omniprésente et présente une forte dépendance au modèle. Pour expliquer ce phénomène, nous dérivons une **loi de covariance locale** montrant qu'un objectif s'améliore au premier ordre lorsque sa récompense présente une covariance positive avec le score scalarisé. Nous étendons cette analyse aux objectifs substituts tronqués utilisés dans l'alignement moderne, démontrant que la loi de covariance reste valable sous des conditions légères malgré la troncation. En nous appuyant sur cette analyse, nous proposons l'**Adaptation de Poids Ciblée par la Covariance (CTWA)**, une méthode plug-and-play qui maintient une covariance positive entre les récompenses des objectifs et le signal d'entraînement pour atténuer efficacement l'interférence inter-objectifs. Enfin, nous complétons ces conditions d'amélioration locale par une **analyse de convergence globale** sous la condition de Polyak–Łojasiewicz, établissant quand l'optimisation scalarisée non convexe atteint une convergence globale et comment l'interférence inter-objectifs dépend de propriétés géométriques spécifiques du modèle.

English

We study a persistent failure mode in multi-objective alignment for large language models (LLMs): training improves performance on only a subset of objectives while causing others to degrade. We formalize this phenomenon as cross-objective interference and conduct the first systematic study across classic scalarization algorithms, showing that interference is pervasive and exhibits strong model dependence. To explain this phenomenon, we derive a local covariance law showing that an objective improves at first order when its reward exhibits positive covariance with the scalarized score. We extend this analysis to clipped surrogate objectives used in modern alignment, demonstrating that the covariance law remains valid under mild conditions despite clipping. Building on this analysis, we propose Covariance Targeted Weight Adaptation (CTWA), a plug-and-play method that maintains positive covariance between objective rewards and the training signal to effectively mitigate cross-objective interference. Finally, we complement these local improvement conditions with a global convergence analysis under the Polyak--Łojasiewicz condition, establishing when non-convex scalarized optimization achieves global convergence and how cross-objective interference depends on specific model geometric properties.

Mise en lumière des interférences entre objectifs dans l'alignement multi-objectifs

Uncovering Cross-Objective Interference in Multi-Objective Alignment

Résumé

Support