ChatPaper.aiChatPaper

Une initialisation pour les gouverner tous : le fine-tuning via la variance expliquée Adaptation

One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation

October 9, 2024
Auteurs: Fabian Paischer, Lukas Hauzenberger, Thomas Schmied, Benedikt Alkin, Marc Peter Deisenroth, Sepp Hochreiter
cs.AI

Résumé

Les modèles fondamentaux (FMs) sont pré-entraînés sur des ensembles de données à grande échelle, puis affinés pour une tâche spécifique dans une application donnée. La méthode d'affinage la plus réussie et la plus couramment utilisée consiste à mettre à jour les poids pré-entraînés via une adaptation à faible rang (LoRA). LoRA introduit de nouvelles matrices de poids généralement initialisées de manière aléatoire avec une distribution de rang uniforme à travers les poids du modèle. Les travaux récents se concentrent sur l'initialisation des poids ou l'apprentissage des rangs adaptatifs pendant l'entraînement. Les deux approches n'ont été étudiées qu'isolément, ce qui entraîne une convergence lente ou une distribution de rang uniforme, conduisant ainsi à des performances sous-optimales. Nous proposons d'améliorer LoRA en initialisant les nouveaux poids de manière basée sur les données en calculant la décomposition en valeurs singulières sur des mini-lots de vecteurs d'activation. Ensuite, nous initialisons les matrices LoRA avec les vecteurs singuliers droits obtenus et redistribuons les rangs parmi toutes les matrices de poids pour expliquer la quantité maximale de variance et poursuivre la procédure d'affinage standard de LoRA. Cela donne lieu à notre nouvelle méthode d'Adaptation de la Variance Expliquée (EVA). Nous appliquons EVA à diverses tâches d'affinage allant de la génération et la compréhension de langage à la classification d'images et à l'apprentissage par renforcement. EVA présente une convergence plus rapide que ses concurrents et obtient le score moyen le plus élevé sur une multitude de tâches par domaine.
English
Foundation models (FMs) are pre-trained on large-scale datasets and then fine-tuned on a downstream task for a specific application. The most successful and most commonly used fine-tuning method is to update the pre-trained weights via a low-rank adaptation (LoRA). LoRA introduces new weight matrices that are usually initialized at random with a uniform rank distribution across model weights. Recent works focus on weight-driven initialization or learning of adaptive ranks during training. Both approaches have only been investigated in isolation, resulting in slow convergence or a uniform rank distribution, in turn leading to sub-optimal performance. We propose to enhance LoRA by initializing the new weights in a data-driven manner by computing singular value decomposition on minibatches of activation vectors. Then, we initialize the LoRA matrices with the obtained right-singular vectors and re-distribute ranks among all weight matrices to explain the maximal amount of variance and continue the standard LoRA fine-tuning procedure. This results in our new method Explained Variance Adaptation (EVA). We apply EVA to a variety of fine-tuning tasks ranging from language generation and understanding to image classification and reinforcement learning. EVA exhibits faster convergence than competitors and attains the highest average score across a multitude of tasks per domain.

Summary

AI-Generated Summary

PDF152November 16, 2024