Eén Initialisatie om ze allemaal te regeren: Fijnafstemming via Verklaarde Variantie Aanpassing
One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation
October 9, 2024
Auteurs: Fabian Paischer, Lukas Hauzenberger, Thomas Schmied, Benedikt Alkin, Marc Peter Deisenroth, Sepp Hochreiter
cs.AI
Samenvatting
Foundation modellen (FMs) worden vooraf getraind op grootschalige datasets en vervolgens fijn afgestemd op een downstream taak voor een specifieke toepassing. De meest succesvolle en meest gebruikte fijnafstemmingsmethode is het bijwerken van de vooraf getrainde gewichten via een lage-rang aanpassing (LoRA). LoRA introduceert nieuwe gewichtsmatrices die meestal willekeurig worden geïnitialiseerd met een uniforme rangverdeling over modelgewichten. Recente werken richten zich op gewichtsgestuurde initialisatie of het leren van adaptieve rangen tijdens training. Beide benaderingen zijn alleen afzonderlijk onderzocht, wat resulteert in langzame convergentie of een uniforme rangverdeling, wat op zijn beurt leidt tot suboptimale prestaties. Wij stellen voor om LoRA te verbeteren door de nieuwe gewichten op een datagestuurde manier te initialiseren door singular value decomposition te berekenen op minibatches van activatievectoren. Vervolgens initialiseren we de LoRA-matrices met de verkregen rechts-singuliere vectoren en herverdelen we rangen over alle gewichtsmatrices om de maximale hoeveelheid variantie te verklaren en het standaard LoRA fijnafstemmingsproces voort te zetten. Dit resulteert in onze nieuwe methode Explained Variance Adaptation (EVA). We passen EVA toe op een verscheidenheid aan fijnafstemmingstaken, variërend van taalgeneratie en -begrip tot beeldclassificatie en versterkend leren. EVA vertoont een snellere convergentie dan concurrenten en behaalt de hoogste gemiddelde score over een veelvoud aan taken per domein.
English
Foundation models (FMs) are pre-trained on large-scale datasets and then
fine-tuned on a downstream task for a specific application. The most successful
and most commonly used fine-tuning method is to update the pre-trained weights
via a low-rank adaptation (LoRA). LoRA introduces new weight matrices that are
usually initialized at random with a uniform rank distribution across model
weights. Recent works focus on weight-driven initialization or learning of
adaptive ranks during training. Both approaches have only been investigated in
isolation, resulting in slow convergence or a uniform rank distribution, in
turn leading to sub-optimal performance. We propose to enhance LoRA by
initializing the new weights in a data-driven manner by computing singular
value decomposition on minibatches of activation vectors. Then, we initialize
the LoRA matrices with the obtained right-singular vectors and re-distribute
ranks among all weight matrices to explain the maximal amount of variance and
continue the standard LoRA fine-tuning procedure. This results in our new
method Explained Variance Adaptation (EVA). We apply EVA to a variety of
fine-tuning tasks ranging from language generation and understanding to image
classification and reinforcement learning. EVA exhibits faster convergence than
competitors and attains the highest average score across a multitude of tasks
per domain.Summary
AI-Generated Summary