SiRA : Mélange parcimonieux d'adaptation à faible rang
SiRA: Sparse Mixture of Low Rank Adaptation
November 15, 2023
Auteurs: Yun Zhu, Nevan Wichers, Chu-Cheng Lin, Xinyi Wang, Tianlong Chen, Lei Shu, Han Lu, Canoee Liu, Liangchen Luo, Jindong Chen, Lei Meng
cs.AI
Résumé
Le réglage efficace des paramètres est une approche prédominante pour adapter les grands modèles de langage aux tâches en aval. La plupart des travaux précédents envisagent l'ajout de paramètres denses entraînables, où tous les paramètres sont utilisés pour adapter une tâche spécifique. Nous avons constaté empiriquement que cette approche est moins efficace, en prenant l'exemple de LoRA, où l'introduction de davantage de paramètres entraînables ne s'avère pas utile. Motivés par cette observation, nous étudions l'importance d'exploiter le calcul "creux" et proposons SiRA : un mélange creux d'adaptation de faible rang. SiRA tire parti du Mélange Creux d'Experts (SMoE) pour améliorer les performances de LoRA. Plus précisément, il impose un routage des k meilleurs experts avec une limite de capacité restreignant le nombre maximum de jetons que chaque expert peut traiter. Nous proposons une nouvelle et simple méthode d'abandon d'experts au-dessus du réseau de gating pour réduire le problème de surajustement. À travers des expériences approfondies, nous vérifions que SiRA surpasse LoRA et d'autres approches de mélange d'experts dans différents contextes de tâches uniques et multitâches.
English
Parameter Efficient Tuning has been an prominent approach to adapt the Large
Language Model to downstream tasks. Most previous works considers adding the
dense trainable parameters, where all parameters are used to adapt certain
task. We found this less effective empirically using the example of LoRA that
introducing more trainable parameters does not help. Motivated by this we
investigate the importance of leveraging "sparse" computation and propose SiRA:
sparse mixture of low rank adaption. SiRA leverages the Sparse Mixture of
Expert(SMoE) to boost the performance of LoRA. Specifically it enforces the top
k experts routing with a capacity limit restricting the maximum number of
tokens each expert can process. We propose a novel and simple expert dropout on
top of gating network to reduce the over-fitting issue. Through extensive
experiments, we verify SiRA performs better than LoRA and other mixture of
expert approaches across different single tasks and multitask settings.