Composición de Conocimiento utilizando Vectores de Tarea con Escalado Anisotrópico Aprendido
Knowledge Composition using Task Vectors with Learned Anisotropic Scaling
July 3, 2024
Autores: Frederic Z. Zhang, Paul Albert, Cristian Rodriguez-Opazo, Anton van den Hengel, Ehsan Abbasnejad
cs.AI
Resumen
Los modelos pre-entrenados producen representaciones genéricas sólidas que pueden ser adaptadas mediante el ajuste fino. La diferencia de peso aprendida en relación al modelo pre-entrenado, conocida como vector de tarea, caracteriza la dirección y paso del ajuste fino. La importancia de los vectores de tarea es tal que operaciones aritméticas simples sobre ellos pueden ser utilizadas para combinar representaciones diversas de diferentes dominios. Este artículo se basa en estas propiedades de los vectores de tarea y tiene como objetivo responder a (1) si los componentes de los vectores de tarea, en particular los bloques de parámetros, exhiben características similares, y (2) cómo dichos bloques pueden ser utilizados para mejorar la composición y transferencia de conocimiento. Con este fin, presentamos aTLAS, un algoritmo que combina linealmente bloques de parámetros con diferentes coeficientes aprendidos, resultando en un escalado anisotrópico a nivel del vector de tarea. Mostramos que tales combinaciones lineales explotan explícitamente la baja dimensionalidad intrínseca de los modelos pre-entrenados, con solo unos pocos coeficientes siendo los parámetros aprendibles. Además, la composición de bloques de parámetros aprovecha las representaciones ya aprendidas, reduciendo así la dependencia de grandes cantidades de datos. Demostramos la efectividad de nuestro método en aritmética de tareas, reconocimiento de pocos ejemplos y adaptación en tiempo de prueba, con objetivos supervisados o no supervisados. En particular, mostramos que (1) el escalado anisotrópico aprendido permite que los vectores de tarea estén más desentrelazados, causando menos interferencia en la composición; (2) la composición de vectores de tarea sobresale con datos escasos o sin etiquetar y es menos propensa al cambio de dominio, lo que conduce a una mejor generalización; (3) mezclar los bloques de parámetros más informativos entre diferentes vectores de tarea antes del entrenamiento puede reducir la huella de memoria y mejorar la flexibilidad de la transferencia de conocimiento. Además, mostramos el potencial de aTLAS como un método PEFT, especialmente con menos datos, y demostramos su escalabilidad.
English
Pre-trained models produce strong generic representations that can be adapted
via fine-tuning. The learned weight difference relative to the pre-trained
model, known as a task vector, characterises the direction and stride of
fine-tuning. The significance of task vectors is such that simple arithmetic
operations on them can be used to combine diverse representations from
different domains. This paper builds on these properties of task vectors and
aims to answer (1) whether components of task vectors, particularly parameter
blocks, exhibit similar characteristics, and (2) how such blocks can be used to
enhance knowledge composition and transfer. To this end, we introduce aTLAS, an
algorithm that linearly combines parameter blocks with different learned
coefficients, resulting in anisotropic scaling at the task vector level. We
show that such linear combinations explicitly exploit the low intrinsic
dimensionality of pre-trained models, with only a few coefficients being the
learnable parameters. Furthermore, composition of parameter blocks leverages
the already learned representations, thereby reducing the dependency on large
amounts of data. We demonstrate the effectiveness of our method in task
arithmetic, few-shot recognition and test-time adaptation, with supervised or
unsupervised objectives. In particular, we show that (1) learned anisotropic
scaling allows task vectors to be more disentangled, causing less interference
in composition; (2) task vector composition excels with scarce or no labeled
data and is less prone to domain shift, thus leading to better
generalisability; (3) mixing the most informative parameter blocks across
different task vectors prior to training can reduce the memory footprint and
improve the flexibility of knowledge transfer. Moreover, we show the potential
of aTLAS as a PEFT method, particularly with less data, and demonstrate that
its scalibility.Summary
AI-Generated Summary