Aufdeckung zielübergreifender Interferenzen bei der Mehrziel-Ausrichtung

Zusammenfassung

Wir untersuchen eine persistente Fehlermodalität bei der Multi-Objective-Alignment von Large Language Models (LLMs): Das Training verbessert die Leistung nur für eine Teilmenge der Ziele, während es zur Verschlechterung bei anderen führt. Wir formalisieren dieses Phänomen als Cross-Objective-Interferenz und führen die erste systematische Studie über klassische Skalarisierungsalgorithmen durch, die zeigt, dass Interferenz allgegenwärtig ist und eine starke Modellabhängigkeit aufweist. Um dieses Phänomen zu erklären, leiten wir ein lokales Kovarianzgesetz her, das zeigt, dass sich ein Ziel erster Ordnung verbessert, wenn seine Belohnung eine positive Kovarianz mit dem skalarisierten Score aufweist. Wir erweitern diese Analyse auf die in modernem Alignment verwendeten geclippten Surrogate-Ziele und zeigen, dass das Kovarianzgesetz unter milden Bedingungen trotz Clipping gültig bleibt. Aufbauend auf dieser Analyse schlagen wir Covariance Targeted Weight Adaptation (CTWA) vor, eine Plug-and-Play-Methode, die eine positive Kovarianz zwischen den Zielbelohnungen und dem Trainingssignal aufrechterhält, um Cross-Objective-Interferenz wirksam zu mildern. Schließlich ergänzen wir diese lokalen Verbesserungsbedingungen durch eine globale Konvergenzanalyse unter der Polyak–Łojasiewicz-Bedingung, die festlegt, wann nicht-konvexe skalarisierte Optimierung globale Konvergenz erreicht und wie Cross-Objective-Interferenz von spezifischen geometrischen Modelleigenschaften abhängt.

English

We study a persistent failure mode in multi-objective alignment for large language models (LLMs): training improves performance on only a subset of objectives while causing others to degrade. We formalize this phenomenon as cross-objective interference and conduct the first systematic study across classic scalarization algorithms, showing that interference is pervasive and exhibits strong model dependence. To explain this phenomenon, we derive a local covariance law showing that an objective improves at first order when its reward exhibits positive covariance with the scalarized score. We extend this analysis to clipped surrogate objectives used in modern alignment, demonstrating that the covariance law remains valid under mild conditions despite clipping. Building on this analysis, we propose Covariance Targeted Weight Adaptation (CTWA), a plug-and-play method that maintains positive covariance between objective rewards and the training signal to effectively mitigate cross-objective interference. Finally, we complement these local improvement conditions with a global convergence analysis under the Polyak--Łojasiewicz condition, establishing when non-convex scalarized optimization achieves global convergence and how cross-objective interference depends on specific model geometric properties.

Aufdeckung zielübergreifender Interferenzen bei der Mehrziel-Ausrichtung

Uncovering Cross-Objective Interference in Multi-Objective Alignment

Zusammenfassung

Support