VeRA: Adaptação de Matriz Aleatória Baseada em Vetores

Resumo

A adaptação de baixo posto (LoRA) é um método popular que reduz o número de parâmetros treináveis ao ajustar modelos de linguagem grandes, mas ainda enfrenta desafios significativos de armazenamento ao escalar para modelos ainda maiores ou ao implantar diversos modelos adaptados por usuário ou por tarefa. Neste trabalho, apresentamos a Adaptação de Matriz Aleatória Baseada em Vetores (VeRA), que reduz o número de parâmetros treináveis em 10x em comparação com o LoRA, mantendo o mesmo desempenho. Isso é alcançado utilizando um único par de matrizes de baixo posto compartilhadas em todas as camadas e aprendendo pequenos vetores de escala em seu lugar. Demonstramos sua eficácia nos benchmarks GLUE e E2E, e mostramos sua aplicação no seguimento de instruções com apenas 1,4M de parâmetros usando o modelo Llama2 7B.

English

Low-rank adapation (LoRA) is a popular method that reduces the number of trainable parameters when finetuning large language models, but still faces acute storage challenges when scaling to even larger models or deploying numerous per-user or per-task adapted models. In this work, we present Vector-based Random Matrix Adaptation (VeRA), which reduces the number of trainable parameters by 10x compared to LoRA, yet maintains the same performance. It achieves this by using a single pair of low-rank matrices shared across all layers and learning small scaling vectors instead. We demonstrate its effectiveness on the GLUE and E2E benchmarks, and show its application in instruction-following with just 1.4M parameters using the Llama2 7B model.

VeRA: Adaptação de Matriz Aleatória Baseada em Vetores

VeRA: Vector-based Random Matrix Adaptation

Resumo

Support