Torne o LoRA Grande Novamente: Impulsionando o LoRA com Valores Singulares Adaptativos e Alinhamento de Otimização de Mistura de Especialistas
Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment
February 24, 2025
Autores: Chenghao Fan, Zhenyi Lu, Sichen Liu, Xiaoye Qu, Wei Wei, Chengfeng Gu, Yu Cheng
cs.AI
Resumo
Embora a Adaptação de Baixa Classificação (LoRA) permita o ajuste fino eficiente em termos de parâmetros para Modelos de Linguagem de Grande Escala (LLMs), seu desempenho frequentemente fica aquém do Ajuste Fino Completo (Full FT). Os métodos atuais otimizam a LoRA inicializando com subconjuntos estáticos de decomposição em valores singulares (SVD), resultando em uma utilização subótima do conhecimento pré-treinado. Outra abordagem para melhorar a LoRA é incorporar uma arquitetura de Mistura de Especialistas (MoE). No entanto, o desalinhamento de pesos e a dinâmica complexa de gradientes tornam desafiador adotar a SVD antes da arquitetura LoRA MoE. Para mitigar esses problemas, propomos a Grande Mistura de Especialistas LoRA (GOAT), uma estrutura que (1) integra adaptativamente prioridades relevantes usando um MoE estruturado por SVD e (2) alinha a otimização com o MoE de ajuste fino completo ao derivar um fator de escalonamento teórico. Demonstramos que o escalonamento adequado, sem modificar a arquitetura ou os algoritmos de treinamento, aumenta a eficiência e o desempenho da LoRA MoE. Experimentos em 25 conjuntos de dados, incluindo compreensão de linguagem natural, raciocínio de senso comum, classificação de imagens e geração de linguagem natural, demonstram o desempenho de ponta do GOAT, reduzindo a lacuna em relação ao Full FT.
English
While Low-Rank Adaptation (LoRA) enables parameter-efficient fine-tuning for
Large Language Models (LLMs), its performance often falls short of Full
Fine-Tuning (Full FT). Current methods optimize LoRA by initializing with
static singular value decomposition (SVD) subsets, leading to suboptimal
leveraging of pre-trained knowledge. Another path for improving LoRA is
incorporating a Mixture-of-Experts (MoE) architecture. However, weight
misalignment and complex gradient dynamics make it challenging to adopt SVD
prior to the LoRA MoE architecture. To mitigate these issues, we propose
Great LoRA Mixture-of-Expert
(GOAT), a framework that (1) adaptively integrates relevant priors using an
SVD-structured MoE, and (2) aligns optimization with full fine-tuned MoE by
deriving a theoretical scaling factor. We demonstrate that proper scaling,
without modifying the architecture or training algorithms, boosts LoRA MoE's
efficiency and performance. Experiments across 25 datasets, including natural
language understanding, commonsense reasoning, image classification, and
natural language generation, demonstrate GOAT's state-of-the-art performance,
closing the gap with Full FT.Summary
AI-Generated Summary