ChatPaper.aiChatPaper

SiRA: Spars gemischte Low-Rank-Adaption

SiRA: Sparse Mixture of Low Rank Adaptation

November 15, 2023
Autoren: Yun Zhu, Nevan Wichers, Chu-Cheng Lin, Xinyi Wang, Tianlong Chen, Lei Shu, Han Lu, Canoee Liu, Liangchen Luo, Jindong Chen, Lei Meng
cs.AI

Zusammenfassung

Parameter Efficient Tuning hat sich als ein herausragender Ansatz erwiesen, um große Sprachmodelle an nachgelagerte Aufgaben anzupassen. Die meisten bisherigen Arbeiten betrachten das Hinzufügen von dichten trainierbaren Parametern, bei denen alle Parameter zur Anpassung an eine bestimmte Aufgabe verwendet werden. Wir haben empirisch festgestellt, dass dies weniger effektiv ist, wie das Beispiel von LoRA zeigt, bei dem das Einführen weiterer trainierbarer Parameter keinen Nutzen bringt. Motiviert durch diese Erkenntnis untersuchen wir die Bedeutung der Nutzung von „spärlicher“ Berechnung und schlagen SiRA vor: eine spärliche Mischung aus Low-Rank-Adaption. SiRA nutzt die Sparse Mixture of Experts (SMoE), um die Leistung von LoRA zu steigern. Insbesondere erzwingt es das Routing der Top-k-Experten mit einer Kapazitätsbegrenzung, die die maximale Anzahl von Token festlegt, die jeder Experte verarbeiten kann. Wir schlagen eine neuartige und einfache Experten-Dropout-Methode auf Basis des Gating-Netzwerks vor, um das Problem der Überanpassung zu reduzieren. Durch umfangreiche Experimente bestätigen wir, dass SiRA in verschiedenen Einzelaufgaben und Multitask-Szenarien besser abschneidet als LoRA und andere Mixture-of-Expert-Ansätze.
English
Parameter Efficient Tuning has been an prominent approach to adapt the Large Language Model to downstream tasks. Most previous works considers adding the dense trainable parameters, where all parameters are used to adapt certain task. We found this less effective empirically using the example of LoRA that introducing more trainable parameters does not help. Motivated by this we investigate the importance of leveraging "sparse" computation and propose SiRA: sparse mixture of low rank adaption. SiRA leverages the Sparse Mixture of Expert(SMoE) to boost the performance of LoRA. Specifically it enforces the top k experts routing with a capacity limit restricting the maximum number of tokens each expert can process. We propose a novel and simple expert dropout on top of gating network to reduce the over-fitting issue. Through extensive experiments, we verify SiRA performs better than LoRA and other mixture of expert approaches across different single tasks and multitask settings.
PDF90December 15, 2024