Comprendere e Imporre il Disaccoppiamento dei Pesi nell'Aritmetica dei Compiti

Abstract

L'aritmetica dei task fornisce un modo efficiente e senza addestramento per modificare modelli pre-addestrati, ma manca di una spiegazione teorica fondamentale per il suo successo. Il concetto esistente di "disaccoppiamento dei pesi" descrive il risultato ideale di una composizione di task non interferente, ma non ne rivela la causa sottostante. Crucialmente, quali proprietà intrinseche del modello pre-addestrato (θ₀) o dei vettori di task (τ_t) abilitino questo disaccoppiamento rimane poco esplorato. In questo articolo, introduciamo la Specializzazione Task-Feature (TFS), la capacità di un modello di allocare feature interne distinte a task diversi, come principio fondamentale. Dimostriamo prima che la TFS è una condizione sufficiente per il disaccoppiamento dei pesi. Più importante, troviamo che la TFS dà anche origine a una conseguenza geometrica osservabile: l'ortogonalità dei vettori dei pesi. Questo posiziona la TFS come la causa comune sia del risultato funzionale desiderato (disaccoppiamento) che di una proprietà geometrica misurabile (ortogonalità). Questa relazione fornisce l'intuizione chiave per il nostro metodo: poiché l'astratta proprietà TFS è intrattabile da imporre direttamente, possiamo invece promuovere il disaccoppiamento dei pesi modellando la sua conseguenza geometrica concreta, l'ortogonalità. Pertanto, proponiamo OrthoReg, un metodo di regolarizzazione semplice ed efficace che impone attivamente una struttura ortogonale interna sugli aggiornamenti dei pesi (ΔW) che costituiscono τ_t durante il fine-tuning. E dimostriamo teoricamente che OrthoReg promuove il disaccoppiamento. Esperimenti estesi dimostrano che OrthoReg migliora in modo consistente e significativo le prestazioni di vari metodi di aritmetica dei task. Il codice è disponibile all'indirizzo https://github.com/RL-MIND/OrthoReg{https://github.com/RL-MIND/OrthoReg}.

English

Task arithmetic provides an efficient, training-free way to edit pre-trained models, yet lacks a fundamental theoretical explanation for its success. The existing concept of ``weight disentanglement" describes the ideal outcome of non-interfering task composition but does not reveal its underlying cause. Crucially, what intrinsic properties of the pre-trained model (θ_0) or the task vectors (τ_t) enable this disentanglement remains underexplored. In this paper, we introduce Task-Feature Specialization (TFS), a model's ability to allocate distinct internal features to different tasks, as the fundamental principle. We first prove that TFS is a sufficient condition for weight disentanglement. More importantly, we find that TFS also gives rise to an observable geometric consequence: weight vector orthogonality. This positions TFS as the common cause for both the desired functional outcome (disentanglement) and a measurable geometric property (orthogonality). This relationship provides the key insight for our method: since the abstract TFS property is intractable to enforce directly, we can instead promote weight disentanglement by shaping its concrete geometric consequence, orthogonality. Therefore, we propose OrthoReg, a simple and effective regularization method that actively enforces an internal orthogonal structure on weight updates (ΔW) that constitute τ_t during fine-tuning. And we theoretically prove that OrthoReg promotes disentanglement. Extensive experiments demonstrate that OrthoReg consistently and significantly enhances the performance of various task arithmetic methods. Code is available at https://github.com/RL-MIND/OrthoReg{https://github.com/RL-MIND/OrthoReg}.

Comprendere e Imporre il Disaccoppiamento dei Pesi nell'Aritmetica dei Compiti

Understanding and Enforcing Weight Disentanglement in Task Arithmetic

Abstract

Support