ChatPaper.aiChatPaper

Un'inizializzazione per dominarle tutte: Ottimizzazione tramite Varianza Spiegata Adattamento

One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation

October 9, 2024
Autori: Fabian Paischer, Lukas Hauzenberger, Thomas Schmied, Benedikt Alkin, Marc Peter Deisenroth, Sepp Hochreiter
cs.AI

Abstract

I modelli fondamentali (FMs) vengono preaddestrati su dataset su larga scala e successivamente raffinati su un compito downstream per una specifica applicazione. Il metodo di raffinamento più riuscito e comunemente utilizzato consiste nell'aggiornare i pesi preaddestrati tramite un'adattazione a basso rango (LoRA). LoRA introduce nuove matrici dei pesi di solito inizializzate casualmente con una distribuzione di rango uniforme tra i pesi del modello. Lavori recenti si concentrano sull'inizializzazione guidata dai pesi o sull'apprendimento dei ranghi adattivi durante l'addestramento. Entrambi gli approcci sono stati indagati in modo isolato, portando a una convergenza lenta o a una distribuzione di rango uniforme, con conseguente performance subottimali. Proponiamo di potenziare LoRA inizializzando i nuovi pesi in modo guidato dai dati calcolando la decomposizione ai valori singolari su minibatch di vettori di attivazione. Successivamente, inizializziamo le matrici LoRA con i vettori singolari destri ottenuti e ridistribuiamo i ranghi tra tutte le matrici dei pesi per spiegare la massima quantità di varianza e proseguire con la procedura standard di raffinamento LoRA. Ciò porta alla creazione del nostro nuovo metodo di Adattamento della Varianza Spiegata (EVA). Applichiamo EVA a una varietà di compiti di raffinamento che vanno dalla generazione e comprensione del linguaggio alla classificazione delle immagini e al reinforcement learning. EVA mostra una convergenza più rapida rispetto ai concorrenti e raggiunge il punteggio medio più alto in una moltitudine di compiti per dominio.
English
Foundation models (FMs) are pre-trained on large-scale datasets and then fine-tuned on a downstream task for a specific application. The most successful and most commonly used fine-tuning method is to update the pre-trained weights via a low-rank adaptation (LoRA). LoRA introduces new weight matrices that are usually initialized at random with a uniform rank distribution across model weights. Recent works focus on weight-driven initialization or learning of adaptive ranks during training. Both approaches have only been investigated in isolation, resulting in slow convergence or a uniform rank distribution, in turn leading to sub-optimal performance. We propose to enhance LoRA by initializing the new weights in a data-driven manner by computing singular value decomposition on minibatches of activation vectors. Then, we initialize the LoRA matrices with the obtained right-singular vectors and re-distribute ranks among all weight matrices to explain the maximal amount of variance and continue the standard LoRA fine-tuning procedure. This results in our new method Explained Variance Adaptation (EVA). We apply EVA to a variety of fine-tuning tasks ranging from language generation and understanding to image classification and reinforcement learning. EVA exhibits faster convergence than competitors and attains the highest average score across a multitude of tasks per domain.
PDF152November 16, 2024