ChatPaper.aiChatPaper

SiRA: Mistura Esparsa de Adaptação de Baixo Rank

SiRA: Sparse Mixture of Low Rank Adaptation

November 15, 2023
Autores: Yun Zhu, Nevan Wichers, Chu-Cheng Lin, Xinyi Wang, Tianlong Chen, Lei Shu, Han Lu, Canoee Liu, Liangchen Luo, Jindong Chen, Lei Meng
cs.AI

Resumo

O ajuste eficiente de parâmetros tem sido uma abordagem proeminente para adaptar os grandes modelos de linguagem a tarefas específicas. A maioria dos trabalhos anteriores considera a adição de parâmetros treináveis densos, onde todos os parâmetros são usados para adaptar uma determinada tarefa. Empiricamente, descobrimos que isso é menos eficaz, usando o exemplo do LoRA, onde a introdução de mais parâmetros treináveis não ajuda. Motivados por isso, investigamos a importância de aproveitar a computação "esparsa" e propomos o SiRA: uma mistura esparsa de adaptação de baixo rank. O SiRA aproveita a Mistura Esparsa de Especialistas (SMoE) para impulsionar o desempenho do LoRA. Especificamente, ele aplica o roteamento dos k principais especialistas com um limite de capacidade que restringe o número máximo de tokens que cada especialista pode processar. Propomos um novo e simples método de dropout de especialistas sobre a rede de gateamento para reduzir o problema de sobreajuste. Através de extensos experimentos, verificamos que o SiRA tem um desempenho superior ao LoRA e a outras abordagens de mistura de especialistas em diferentes configurações de tarefas únicas e multitarefas.
English
Parameter Efficient Tuning has been an prominent approach to adapt the Large Language Model to downstream tasks. Most previous works considers adding the dense trainable parameters, where all parameters are used to adapt certain task. We found this less effective empirically using the example of LoRA that introducing more trainable parameters does not help. Motivated by this we investigate the importance of leveraging "sparse" computation and propose SiRA: sparse mixture of low rank adaption. SiRA leverages the Sparse Mixture of Expert(SMoE) to boost the performance of LoRA. Specifically it enforces the top k experts routing with a capacity limit restricting the maximum number of tokens each expert can process. We propose a novel and simple expert dropout on top of gating network to reduce the over-fitting issue. Through extensive experiments, we verify SiRA performs better than LoRA and other mixture of expert approaches across different single tasks and multitask settings.
PDF90December 15, 2024