SiRA: Miscela Sparsa di Adattamento a Basso Rango
SiRA: Sparse Mixture of Low Rank Adaptation
November 15, 2023
Autori: Yun Zhu, Nevan Wichers, Chu-Cheng Lin, Xinyi Wang, Tianlong Chen, Lei Shu, Han Lu, Canoee Liu, Liangchen Luo, Jindong Chen, Lei Meng
cs.AI
Abstract
Il Parameter Efficient Tuning è stato un approccio di rilievo per adattare i Large Language Model ai task downstream. La maggior parte dei lavori precedenti considera l'aggiunta di parametri addestrabili densi, dove tutti i parametri vengono utilizzati per adattarsi a un determinato task. Abbiamo riscontrato empiricamente che questo approccio è meno efficace, utilizzando l'esempio di LoRA, dove l'introduzione di più parametri addestrabili non apporta benefici. Motivati da ciò, abbiamo investigato l'importanza di sfruttare il calcolo "sparso" e proponiamo SiRA: una miscela sparsa di adattamento a basso rango. SiRA sfrutta la Sparse Mixture of Expert (SMoE) per migliorare le prestazioni di LoRA. Nello specifico, impone il routing dei top k esperti con un limite di capacità che restringe il numero massimo di token che ciascun esperto può elaborare. Proponiamo un nuovo e semplice dropout sugli esperti applicato alla rete di gating per ridurre il problema dell'overfitting. Attraverso esperimenti estensivi, verifichiamo che SiRA performa meglio di LoRA e di altri approcci basati su miscela di esperti in diversi contesti di task singoli e multitask.
English
Parameter Efficient Tuning has been an prominent approach to adapt the Large
Language Model to downstream tasks. Most previous works considers adding the
dense trainable parameters, where all parameters are used to adapt certain
task. We found this less effective empirically using the example of LoRA that
introducing more trainable parameters does not help. Motivated by this we
investigate the importance of leveraging "sparse" computation and propose SiRA:
sparse mixture of low rank adaption. SiRA leverages the Sparse Mixture of
Expert(SMoE) to boost the performance of LoRA. Specifically it enforces the top
k experts routing with a capacity limit restricting the maximum number of
tokens each expert can process. We propose a novel and simple expert dropout on
top of gating network to reduce the over-fitting issue. Through extensive
experiments, we verify SiRA performs better than LoRA and other mixture of
expert approaches across different single tasks and multitask settings.