Uma Inicialização para Dominá-los Todos: Ajuste Fino através da Variância Explicada Adaptação
One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation
October 9, 2024
Autores: Fabian Paischer, Lukas Hauzenberger, Thomas Schmied, Benedikt Alkin, Marc Peter Deisenroth, Sepp Hochreiter
cs.AI
Resumo
Os modelos fundamentais (FMs) são pré-treinados em conjuntos de dados em larga escala e, em seguida, ajustados para uma tarefa específica em uma aplicação posterior. O método de ajuste mais bem-sucedido e comumente utilizado é atualizar os pesos pré-treinados por meio de uma adaptação de baixa patente (LoRA). O LoRA introduz novas matrizes de pesos que geralmente são inicializadas aleatoriamente com uma distribuição de patente uniforme entre os pesos do modelo. Trabalhos recentes se concentram na inicialização orientada por pesos ou no aprendizado de patentes adaptativas durante o treinamento. Ambas as abordagens foram investigadas isoladamente, resultando em uma convergência lenta ou uma distribuição de patentes uniforme, levando a um desempenho subótimo. Propomos aprimorar o LoRA inicializando os novos pesos de maneira orientada por dados, calculando a decomposição em valores singulares em minilotes de vetores de ativação. Em seguida, inicializamos as matrizes LoRA com os vetores singulares direitos obtidos e redistribuímos as patentes entre todas as matrizes de pesos para explicar a quantidade máxima de variância e continuamos o procedimento padrão de ajuste fino do LoRA. Isso resulta no nosso novo método de Adaptação da Variância Explicada (EVA). Aplicamos o EVA a uma variedade de tarefas de ajuste fino, que vão desde geração e compreensão de linguagem até classificação de imagens e aprendizado por reforço. O EVA apresenta uma convergência mais rápida do que os concorrentes e alcança a maior pontuação média em uma infinidade de tarefas por domínio.
English
Foundation models (FMs) are pre-trained on large-scale datasets and then
fine-tuned on a downstream task for a specific application. The most successful
and most commonly used fine-tuning method is to update the pre-trained weights
via a low-rank adaptation (LoRA). LoRA introduces new weight matrices that are
usually initialized at random with a uniform rank distribution across model
weights. Recent works focus on weight-driven initialization or learning of
adaptive ranks during training. Both approaches have only been investigated in
isolation, resulting in slow convergence or a uniform rank distribution, in
turn leading to sub-optimal performance. We propose to enhance LoRA by
initializing the new weights in a data-driven manner by computing singular
value decomposition on minibatches of activation vectors. Then, we initialize
the LoRA matrices with the obtained right-singular vectors and re-distribute
ranks among all weight matrices to explain the maximal amount of variance and
continue the standard LoRA fine-tuning procedure. This results in our new
method Explained Variance Adaptation (EVA). We apply EVA to a variety of
fine-tuning tasks ranging from language generation and understanding to image
classification and reinforcement learning. EVA exhibits faster convergence than
competitors and attains the highest average score across a multitude of tasks
per domain.Summary
AI-Generated Summary