ChatPaper.aiChatPaper

Composição de Conhecimento usando Vetores de Tarefa com Escalonamento Anisotrópico Aprendido

Knowledge Composition using Task Vectors with Learned Anisotropic Scaling

July 3, 2024
Autores: Frederic Z. Zhang, Paul Albert, Cristian Rodriguez-Opazo, Anton van den Hengel, Ehsan Abbasnejad
cs.AI

Resumo

Modelos pré-treinados produzem representações genéricas fortes que podem ser adaptadas por meio de ajustes finos. A diferença de peso aprendida em relação ao modelo pré-treinado, conhecida como vetor de tarefa, caracteriza a direção e o passo do ajuste fino. A importância dos vetores de tarefa é tal que operações aritméticas simples neles podem ser usadas para combinar representações diversas de diferentes domínios. Este artigo se baseia nessas propriedades dos vetores de tarefa e tem como objetivo responder (1) se os componentes dos vetores de tarefa, em particular os blocos de parâmetros, exibem características semelhantes, e (2) como tais blocos podem ser usados para aprimorar a composição e transferência de conhecimento. Para isso, apresentamos aTLAS, um algoritmo que combina linearmente blocos de parâmetros com diferentes coeficientes aprendidos, resultando em escalonamento anisotrópico no nível do vetor de tarefa. Mostramos que tais combinações lineares exploram explicitamente a baixa dimensionalidade intrínseca dos modelos pré-treinados, com apenas alguns coeficientes sendo os parâmetros aprendíveis. Além disso, a composição de blocos de parâmetros alavanca as representações já aprendidas, reduzindo assim a dependência de grandes quantidades de dados. Demonstramos a eficácia de nosso método em aritmética de tarefas, reconhecimento de poucas amostras e adaptação em tempo de teste, com objetivos supervisionados ou não supervisionados. Em particular, mostramos que (1) o escalonamento anisotrópico aprendido permite que os vetores de tarefa sejam mais desembaraçados, causando menos interferência na composição; (2) a composição de vetores de tarefa se destaca com dados escassos ou sem rótulos e é menos suscetível a mudanças de domínio, levando assim a uma melhor generalização; (3) misturar os blocos de parâmetros mais informativos entre diferentes vetores de tarefa antes do treinamento pode reduzir a pegada de memória e melhorar a flexibilidade da transferência de conhecimento. Além disso, mostramos o potencial do aTLAS como um método PEFT, especialmente com menos dados, e demonstramos sua escalabilidade.
English
Pre-trained models produce strong generic representations that can be adapted via fine-tuning. The learned weight difference relative to the pre-trained model, known as a task vector, characterises the direction and stride of fine-tuning. The significance of task vectors is such that simple arithmetic operations on them can be used to combine diverse representations from different domains. This paper builds on these properties of task vectors and aims to answer (1) whether components of task vectors, particularly parameter blocks, exhibit similar characteristics, and (2) how such blocks can be used to enhance knowledge composition and transfer. To this end, we introduce aTLAS, an algorithm that linearly combines parameter blocks with different learned coefficients, resulting in anisotropic scaling at the task vector level. We show that such linear combinations explicitly exploit the low intrinsic dimensionality of pre-trained models, with only a few coefficients being the learnable parameters. Furthermore, composition of parameter blocks leverages the already learned representations, thereby reducing the dependency on large amounts of data. We demonstrate the effectiveness of our method in task arithmetic, few-shot recognition and test-time adaptation, with supervised or unsupervised objectives. In particular, we show that (1) learned anisotropic scaling allows task vectors to be more disentangled, causing less interference in composition; (2) task vector composition excels with scarce or no labeled data and is less prone to domain shift, thus leading to better generalisability; (3) mixing the most informative parameter blocks across different task vectors prior to training can reduce the memory footprint and improve the flexibility of knowledge transfer. Moreover, we show the potential of aTLAS as a PEFT method, particularly with less data, and demonstrate that its scalibility.
PDF123November 28, 2024