Verstehen und Durchsetzen von Gewichtsdisentanglement in der Aufgabenarithmetik

Zusammenfassung

Task Arithmetic bietet eine effiziente, trainingsfreie Methode zur Bearbeitung vortrainierter Modelle, doch es fehlt eine grundlegende theoretische Erklärung für ihren Erfolg. Das bestehende Konzept der „Gewichtsdisentanglement“ beschreibt zwar das ideale Ergebnis nicht-interferierender Aufgabenkombination, offenbart aber nicht deren zugrundeliegende Ursache. Entscheidend ist, dass die intrinsischen Eigenschaften des vortrainierten Modells (θ₀) oder der Aufgabenvektoren (τₜ), die dieses Disentanglement ermöglichen, bislang unzureichend erforscht sind. In dieser Arbeit führen wir Task-Feature Specialization (TFS) – die Fähigkeit eines Modells, unterschiedliche interne Merkmale verschiedenen Aufgaben zuzuordnen – als fundamentales Prinzip ein. Wir beweisen zunächst, dass TFS eine hinreichende Bedingung für Gewichtsdisentanglement ist. Noch wichtiger ist, dass wir feststellen, dass TFS auch eine beobachtbare geometrische Konsequenz hat: Orthogonalität der Gewichtsvektoren. Dies positioniert TFS als gemeinsame Ursache sowohl für das gewünschte funktionale Ergebnis (Disentanglement) als auch für eine messbare geometrische Eigenschaft (Orthogonalität). Diese Beziehung liefert die zentrale Erkenntnis für unsere Methode: Da sich die abstrakte TFS-Eigenschaft nicht direkt erzwingen lässt, können wir Gewichtsdisentanglement stattdessen fördern, indem wir ihre konkrete geometrische Konsequenz, die Orthogonalität, formen. Daher schlagen wir OrthoReg vor, eine einfache und effektive Regularisierungsmethode, die während des Fine-Tunings aktiv eine interne orthogonale Struktur in den Gewichtsaktualisierungen (ΔW) erzwingt, die τₜ bilden. Wir beweisen theoretisch, dass OrthoReg Disentanglement fördert. Umfangreiche Experimente zeigen, dass OrthoReg die Leistung verschiedener Task-Arithmetic-Methoden konsistent und signifikant verbessert. Code ist verfügbar unter https://github.com/RL-MIND/OrthoReg.

English

Task arithmetic provides an efficient, training-free way to edit pre-trained models, yet lacks a fundamental theoretical explanation for its success. The existing concept of ``weight disentanglement" describes the ideal outcome of non-interfering task composition but does not reveal its underlying cause. Crucially, what intrinsic properties of the pre-trained model (θ_0) or the task vectors (τ_t) enable this disentanglement remains underexplored. In this paper, we introduce Task-Feature Specialization (TFS), a model's ability to allocate distinct internal features to different tasks, as the fundamental principle. We first prove that TFS is a sufficient condition for weight disentanglement. More importantly, we find that TFS also gives rise to an observable geometric consequence: weight vector orthogonality. This positions TFS as the common cause for both the desired functional outcome (disentanglement) and a measurable geometric property (orthogonality). This relationship provides the key insight for our method: since the abstract TFS property is intractable to enforce directly, we can instead promote weight disentanglement by shaping its concrete geometric consequence, orthogonality. Therefore, we propose OrthoReg, a simple and effective regularization method that actively enforces an internal orthogonal structure on weight updates (ΔW) that constitute τ_t during fine-tuning. And we theoretically prove that OrthoReg promotes disentanglement. Extensive experiments demonstrate that OrthoReg consistently and significantly enhances the performance of various task arithmetic methods. Code is available at https://github.com/RL-MIND/OrthoReg{https://github.com/RL-MIND/OrthoReg}.

Verstehen und Durchsetzen von Gewichtsdisentanglement in der Aufgabenarithmetik

Understanding and Enforcing Weight Disentanglement in Task Arithmetic

Zusammenfassung

Support