Torne o LoRA Grande Novamente: Impulsionando o LoRA com Valores Singulares Adaptativos e Alinhamento de Otimização de Mistura de Especialistas

Resumo

Embora a Adaptação de Baixa Classificação (LoRA) permita o ajuste fino eficiente em termos de parâmetros para Modelos de Linguagem de Grande Escala (LLMs), seu desempenho frequentemente fica aquém do Ajuste Fino Completo (Full FT). Os métodos atuais otimizam a LoRA inicializando com subconjuntos estáticos de decomposição em valores singulares (SVD), resultando em uma utilização subótima do conhecimento pré-treinado. Outra abordagem para melhorar a LoRA é incorporar uma arquitetura de Mistura de Especialistas (MoE). No entanto, o desalinhamento de pesos e a dinâmica complexa de gradientes tornam desafiador adotar a SVD antes da arquitetura LoRA MoE. Para mitigar esses problemas, propomos a Grande Mistura de Especialistas LoRA (GOAT), uma estrutura que (1) integra adaptativamente prioridades relevantes usando um MoE estruturado por SVD e (2) alinha a otimização com o MoE de ajuste fino completo ao derivar um fator de escalonamento teórico. Demonstramos que o escalonamento adequado, sem modificar a arquitetura ou os algoritmos de treinamento, aumenta a eficiência e o desempenho da LoRA MoE. Experimentos em 25 conjuntos de dados, incluindo compreensão de linguagem natural, raciocínio de senso comum, classificação de imagens e geração de linguagem natural, demonstram o desempenho de ponta do GOAT, reduzindo a lacuna em relação ao Full FT.

English

While Low-Rank Adaptation (LoRA) enables parameter-efficient fine-tuning for Large Language Models (LLMs), its performance often falls short of Full Fine-Tuning (Full FT). Current methods optimize LoRA by initializing with static singular value decomposition (SVD) subsets, leading to suboptimal leveraging of pre-trained knowledge. Another path for improving LoRA is incorporating a Mixture-of-Experts (MoE) architecture. However, weight misalignment and complex gradient dynamics make it challenging to adopt SVD prior to the LoRA MoE architecture. To mitigate these issues, we propose Great LoRA Mixture-of-Expert (GOAT), a framework that (1) adaptively integrates relevant priors using an SVD-structured MoE, and (2) aligns optimization with full fine-tuned MoE by deriving a theoretical scaling factor. We demonstrate that proper scaling, without modifying the architecture or training algorithms, boosts LoRA MoE's efficiency and performance. Experiments across 25 datasets, including natural language understanding, commonsense reasoning, image classification, and natural language generation, demonstrate GOAT's state-of-the-art performance, closing the gap with Full FT.

Torne o LoRA Grande Novamente: Impulsionando o LoRA com Valores Singulares Adaptativos e Alinhamento de Otimização de Mistura de Especialistas

Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment

Resumo

Support