ChatPaper.aiChatPaper

학습된 이방성 스케일링을 활용한 태스크 벡터 기반 지식 구성

Knowledge Composition using Task Vectors with Learned Anisotropic Scaling

July 3, 2024
저자: Frederic Z. Zhang, Paul Albert, Cristian Rodriguez-Opazo, Anton van den Hengel, Ehsan Abbasnejad
cs.AI

초록

사전 학습된 모델은 미세 조정을 통해 적응 가능한 강력한 일반적 표현을 생성합니다. 사전 학습된 모델과 비교하여 학습된 가중치 차이는 '태스크 벡터'로 알려져 있으며, 이는 미세 조정의 방향과 보폭을 특징짓습니다. 태스크 벡터의 중요성은 단순한 산술 연산을 통해 서로 다른 도메인의 다양한 표현을 결합하는 데 사용될 수 있다는 점에 있습니다. 본 논문은 이러한 태스크 벡터의 특성을 기반으로 (1) 태스크 벡터의 구성 요소, 특히 파라미터 블록이 유사한 특성을 보이는지, 그리고 (2) 이러한 블록이 지식 구성과 전이를 강화하는 데 어떻게 활용될 수 있는지를 탐구합니다. 이를 위해, 우리는 aTLAS 알고리즘을 소개합니다. 이 알고리즘은 서로 다른 학습된 계수로 파라미터 블록을 선형적으로 결합하여 태스크 벡터 수준에서 이방성 스케일링을 구현합니다. 우리는 이러한 선형 결합이 사전 학습된 모델의 낮은 내재적 차원성을 명시적으로 활용하며, 학습 가능한 파라미터가 단 몇 개의 계수에 불과함을 보여줍니다. 또한, 파라미터 블록의 구성은 이미 학습된 표현을 활용함으로써 대량의 데이터에 대한 의존성을 줄입니다. 우리는 이 방법의 효과를 태스크 산술, 소수 샷 인식, 테스트 시간 적응에서 지도 및 비지도 목표를 통해 입증합니다. 특히, (1) 학습된 이방성 스케일링은 태스크 벡터가 더 분리되어 구성 시 간섭을 줄이는 것을 보여주며, (2) 태스크 벡터 구성은 레이블 데이터가 부족하거나 없는 상황에서도 우수하며 도메인 이동에 덜 취약하여 더 나은 일반화를 이끌어냅니다. (3) 학습 전에 서로 다른 태스크 벡터에서 가장 정보가 풍부한 파라미터 블록을 혼합하면 메모리 사용량을 줄이고 지식 전이의 유연성을 향상시킬 수 있습니다. 또한, 우리는 aTLAS가 특히 데이터가 적은 상황에서 PEFT 방법으로서의 잠재력을 보여주며, 그 확장성을 입증합니다.
English
Pre-trained models produce strong generic representations that can be adapted via fine-tuning. The learned weight difference relative to the pre-trained model, known as a task vector, characterises the direction and stride of fine-tuning. The significance of task vectors is such that simple arithmetic operations on them can be used to combine diverse representations from different domains. This paper builds on these properties of task vectors and aims to answer (1) whether components of task vectors, particularly parameter blocks, exhibit similar characteristics, and (2) how such blocks can be used to enhance knowledge composition and transfer. To this end, we introduce aTLAS, an algorithm that linearly combines parameter blocks with different learned coefficients, resulting in anisotropic scaling at the task vector level. We show that such linear combinations explicitly exploit the low intrinsic dimensionality of pre-trained models, with only a few coefficients being the learnable parameters. Furthermore, composition of parameter blocks leverages the already learned representations, thereby reducing the dependency on large amounts of data. We demonstrate the effectiveness of our method in task arithmetic, few-shot recognition and test-time adaptation, with supervised or unsupervised objectives. In particular, we show that (1) learned anisotropic scaling allows task vectors to be more disentangled, causing less interference in composition; (2) task vector composition excels with scarce or no labeled data and is less prone to domain shift, thus leading to better generalisability; (3) mixing the most informative parameter blocks across different task vectors prior to training can reduce the memory footprint and improve the flexibility of knowledge transfer. Moreover, we show the potential of aTLAS as a PEFT method, particularly with less data, and demonstrate that its scalibility.

Summary

AI-Generated Summary

PDF123November 28, 2024