Uma Inicialização para Dominá-los Todos: Ajuste Fino através da Variância Explicada Adaptação

Resumo

Os modelos fundamentais (FMs) são pré-treinados em conjuntos de dados em larga escala e, em seguida, ajustados para uma tarefa específica em uma aplicação posterior. O método de ajuste mais bem-sucedido e comumente utilizado é atualizar os pesos pré-treinados por meio de uma adaptação de baixa patente (LoRA). O LoRA introduz novas matrizes de pesos que geralmente são inicializadas aleatoriamente com uma distribuição de patente uniforme entre os pesos do modelo. Trabalhos recentes se concentram na inicialização orientada por pesos ou no aprendizado de patentes adaptativas durante o treinamento. Ambas as abordagens foram investigadas isoladamente, resultando em uma convergência lenta ou uma distribuição de patentes uniforme, levando a um desempenho subótimo. Propomos aprimorar o LoRA inicializando os novos pesos de maneira orientada por dados, calculando a decomposição em valores singulares em minilotes de vetores de ativação. Em seguida, inicializamos as matrizes LoRA com os vetores singulares direitos obtidos e redistribuímos as patentes entre todas as matrizes de pesos para explicar a quantidade máxima de variância e continuamos o procedimento padrão de ajuste fino do LoRA. Isso resulta no nosso novo método de Adaptação da Variância Explicada (EVA). Aplicamos o EVA a uma variedade de tarefas de ajuste fino, que vão desde geração e compreensão de linguagem até classificação de imagens e aprendizado por reforço. O EVA apresenta uma convergência mais rápida do que os concorrentes e alcança a maior pontuação média em uma infinidade de tarefas por domínio.

English

Foundation models (FMs) are pre-trained on large-scale datasets and then fine-tuned on a downstream task for a specific application. The most successful and most commonly used fine-tuning method is to update the pre-trained weights via a low-rank adaptation (LoRA). LoRA introduces new weight matrices that are usually initialized at random with a uniform rank distribution across model weights. Recent works focus on weight-driven initialization or learning of adaptive ranks during training. Both approaches have only been investigated in isolation, resulting in slow convergence or a uniform rank distribution, in turn leading to sub-optimal performance. We propose to enhance LoRA by initializing the new weights in a data-driven manner by computing singular value decomposition on minibatches of activation vectors. Then, we initialize the LoRA matrices with the obtained right-singular vectors and re-distribute ranks among all weight matrices to explain the maximal amount of variance and continue the standard LoRA fine-tuning procedure. This results in our new method Explained Variance Adaptation (EVA). We apply EVA to a variety of fine-tuning tasks ranging from language generation and understanding to image classification and reinforcement learning. EVA exhibits faster convergence than competitors and attains the highest average score across a multitude of tasks per domain.

Uma Inicialização para Dominá-los Todos: Ajuste Fino através da Variância Explicada Adaptação

One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation

Resumo

Support