Wissenszusammensetzung unter Verwendung von Aufgabenvektoren mit erlernter anisotroper Skalierung.
Knowledge Composition using Task Vectors with Learned Anisotropic Scaling
July 3, 2024
Autoren: Frederic Z. Zhang, Paul Albert, Cristian Rodriguez-Opazo, Anton van den Hengel, Ehsan Abbasnejad
cs.AI
Zusammenfassung
Vorab trainierte Modelle erzeugen starke generische Repräsentationen, die über Feinabstimmung angepasst werden können. Der erlernte Gewichtsunterschied relativ zum vorab trainierten Modell, bekannt als Aufgabenvector, charakterisiert die Richtung und Schrittlänge der Feinabstimmung. Die Bedeutung von Aufgabenvectoren ist derart, dass einfache arithmetische Operationen an ihnen verwendet werden können, um vielfältige Repräsentationen aus verschiedenen Bereichen zu kombinieren. Diese Arbeit baut auf diesen Eigenschaften von Aufgabenvectoren auf und zielt darauf ab zu beantworten, (1) ob Komponenten von Aufgabenvectoren, insbesondere Parameterblöcke, ähnliche Eigenschaften aufweisen, und (2) wie solche Blöcke verwendet werden können, um die Wissenszusammensetzung und -übertragung zu verbessern. Zu diesem Zweck stellen wir aTLAS vor, einen Algorithmus, der Parameterblöcke mit unterschiedlichen erlernten Koeffizienten linear kombiniert, was zu anisotropem Skalieren auf der Aufgabenvectorebene führt. Wir zeigen, dass solche lineare Kombinationen die geringe intrinsische Dimensionalität vorab trainierter Modelle explizit ausnutzen, wobei nur wenige Koeffizienten die erlernbaren Parameter sind. Darüber hinaus nutzt die Zusammensetzung von Parameterblöcken die bereits erlernten Repräsentationen, wodurch die Abhängigkeit von großen Datenmengen reduziert wird. Wir zeigen die Wirksamkeit unserer Methode bei Aufgabendarstellung, Few-Shot-Erkennung und Anpassung zur Testzeit, mit überwachten oder unüberwachten Zielen. Insbesondere zeigen wir, dass (1) erlerntes anisotropes Skalieren es ermöglicht, dass Aufgabenvectoren stärker entkoppelt werden, was zu weniger Interferenzen bei der Zusammensetzung führt; (2) die Zusammensetzung von Aufgabenvectoren mit knappen oder gar keinen gelabelten Daten herausragt und weniger anfällig für Domänenverschiebungen ist, was zu einer besseren Verallgemeinerbarkeit führt; (3) das Mischen der informativsten Parameterblöcke über verschiedene Aufgabenvectoren vor dem Training den Speicherbedarf reduzieren und die Flexibilität der Wissensübertragung verbessern kann. Darüber hinaus zeigen wir das Potenzial von aTLAS als PEFT-Methode, insbesondere bei weniger Daten, und zeigen dessen Skalierbarkeit.
English
Pre-trained models produce strong generic representations that can be adapted
via fine-tuning. The learned weight difference relative to the pre-trained
model, known as a task vector, characterises the direction and stride of
fine-tuning. The significance of task vectors is such that simple arithmetic
operations on them can be used to combine diverse representations from
different domains. This paper builds on these properties of task vectors and
aims to answer (1) whether components of task vectors, particularly parameter
blocks, exhibit similar characteristics, and (2) how such blocks can be used to
enhance knowledge composition and transfer. To this end, we introduce aTLAS, an
algorithm that linearly combines parameter blocks with different learned
coefficients, resulting in anisotropic scaling at the task vector level. We
show that such linear combinations explicitly exploit the low intrinsic
dimensionality of pre-trained models, with only a few coefficients being the
learnable parameters. Furthermore, composition of parameter blocks leverages
the already learned representations, thereby reducing the dependency on large
amounts of data. We demonstrate the effectiveness of our method in task
arithmetic, few-shot recognition and test-time adaptation, with supervised or
unsupervised objectives. In particular, we show that (1) learned anisotropic
scaling allows task vectors to be more disentangled, causing less interference
in composition; (2) task vector composition excels with scarce or no labeled
data and is less prone to domain shift, thus leading to better
generalisability; (3) mixing the most informative parameter blocks across
different task vectors prior to training can reduce the memory footprint and
improve the flexibility of knowledge transfer. Moreover, we show the potential
of aTLAS as a PEFT method, particularly with less data, and demonstrate that
its scalibility.Summary
AI-Generated Summary