MultiLoRA: Democratizando o LoRA para um Melhor Aprendizado Multitarefa
MultiLoRA: Democratizing LoRA for Better Multi-Task Learning
November 20, 2023
Autores: Yiming Wang, Yu Lin, Xiaodong Zeng, Guannan Zhang
cs.AI
Resumo
O LoRA alcança uma eficiência notável de recursos e desempenho comparável ao adaptar LLMs para tarefas específicas. Desde que o ChatGPT demonstrou desempenho superior em várias tarefas, tem havido um crescente desejo de adaptar um único modelo para todas as tarefas. No entanto, o baixo posto explícito do LoRA limita o desempenho da adaptação em cenários complexos de múltiplas tarefas. O LoRA é dominado por um pequeno número de vetores singulares principais, enquanto o ajuste fino se decompõe em um conjunto de transformações unitárias menos importantes. Neste artigo, propomos o MultiLoRA para uma melhor adaptação a múltiplas tarefas, reduzindo a dominância dos vetores singulares principais observada no LoRA. O MultiLoRA dimensiona os módulos LoRA horizontalmente e altera a inicialização dos parâmetros das matrizes de adaptação para reduzir a dependência de parâmetros, resultando em subespaços unitários mais equilibrados. Construímos, de forma inédita, dados de treinamento especializados misturando conjuntos de dados de seguimento de instruções, compreensão de linguagem natural e conhecimento mundial, para cobrir amostras semanticamente e sintaticamente diferentes. Com apenas 2,5% de parâmetros adicionais, o MultiLoRA supera as contrapartes de LoRA único e o ajuste fino em múltiplos benchmarks e escalas de modelos. Uma investigação mais aprofundada das matrizes de atualização de pesos do MultiLoRA exibe uma dependência reduzida dos vetores singulares principais e contribuições mais democráticas das transformações unitárias.
English
LoRA achieves remarkable resource efficiency and comparable performance when
adapting LLMs for specific tasks. Since ChatGPT demonstrated superior
performance on various tasks, there has been a growing desire to adapt one
model for all tasks. However, the explicit low-rank of LoRA limits the
adaptation performance in complex multi-task scenarios. LoRA is dominated by a
small number of top singular vectors while fine-tuning decomposes into a set of
less important unitary transforms. In this paper, we propose MultiLoRA for
better multi-task adaptation by reducing the dominance of top singular vectors
observed in LoRA. MultiLoRA scales LoRA modules horizontally and change
parameter initialization of adaptation matrices to reduce parameter dependency,
thus yields more balanced unitary subspaces. We unprecedentedly construct
specialized training data by mixing datasets of instruction follow, natural
language understanding, world knowledge, to cover semantically and
syntactically different samples. With only 2.5% of additional parameters,
MultiLoRA outperforms single LoRA counterparts and fine-tuning on multiple
benchmarks and model scales. Further investigation into weight update matrices
of MultiLoRA exhibits reduced dependency on top singular vectors and more
democratic unitary transform contributions.