SiRA: Sparse Mengsel van Lage Rang Aanpassing
SiRA: Sparse Mixture of Low Rank Adaptation
November 15, 2023
Auteurs: Yun Zhu, Nevan Wichers, Chu-Cheng Lin, Xinyi Wang, Tianlong Chen, Lei Shu, Han Lu, Canoee Liu, Liangchen Luo, Jindong Chen, Lei Meng
cs.AI
Samenvatting
Parameter Efficient Tuning is een prominente benadering geweest om het Large Language Model aan te passen aan downstream taken. De meeste eerdere werken overwegen het toevoegen van dichte trainbare parameters, waarbij alle parameters worden gebruikt om een bepaalde taak aan te passen. We hebben empirisch vastgesteld dat dit minder effectief is aan de hand van het voorbeeld van LoRA, waar het introduceren van meer trainbare parameters niet helpt. Gemotiveerd door dit inzicht onderzoeken we het belang van het benutten van "sparse" berekeningen en stellen we SiRA voor: een sparse mengsel van low-rank aanpassing. SiRA maakt gebruik van het Sparse Mixture of Experts (SMoE) om de prestaties van LoRA te verbeteren. Specifiek wordt de top-k experts routing gehandhaafd met een capaciteitslimiet die het maximale aantal tokens beperkt dat elke expert kan verwerken. We introduceren een nieuw en eenvoudig expert dropout bovenop het gating-netwerk om het overfitting-probleem te verminderen. Door uitgebreide experimenten verifiëren we dat SiRA beter presteert dan LoRA en andere mengsels van expert-benaderingen in verschillende enkelvoudige taken en multitask-omgevingen.
English
Parameter Efficient Tuning has been an prominent approach to adapt the Large
Language Model to downstream tasks. Most previous works considers adding the
dense trainable parameters, where all parameters are used to adapt certain
task. We found this less effective empirically using the example of LoRA that
introducing more trainable parameters does not help. Motivated by this we
investigate the importance of leveraging "sparse" computation and propose SiRA:
sparse mixture of low rank adaption. SiRA leverages the Sparse Mixture of
Expert(SMoE) to boost the performance of LoRA. Specifically it enforces the top
k experts routing with a capacity limit restricting the maximum number of
tokens each expert can process. We propose a novel and simple expert dropout on
top of gating network to reduce the over-fitting issue. Through extensive
experiments, we verify SiRA performs better than LoRA and other mixture of
expert approaches across different single tasks and multitask settings.