SiRA: Mezcla Dispersa de Adaptación de Bajo Rango
SiRA: Sparse Mixture of Low Rank Adaptation
November 15, 2023
Autores: Yun Zhu, Nevan Wichers, Chu-Cheng Lin, Xinyi Wang, Tianlong Chen, Lei Shu, Han Lu, Canoee Liu, Liangchen Luo, Jindong Chen, Lei Meng
cs.AI
Resumen
El ajuste eficiente de parámetros ha sido un enfoque destacado para adaptar los modelos de lenguaje de gran escala a tareas específicas. La mayoría de los trabajos anteriores consideran agregar parámetros entrenables densos, donde todos los parámetros se utilizan para adaptarse a una tarea determinada. Empíricamente, encontramos que esto es menos efectivo utilizando el ejemplo de LoRA, donde introducir más parámetros entrenables no resulta útil. Motivados por esto, investigamos la importancia de aprovechar el cómputo "disperso" y proponemos SiRA: una mezcla dispersa de adaptación de bajo rango. SiRA aprovecha la Mezcla Dispersa de Expertos (SMoE) para mejorar el rendimiento de LoRA. Específicamente, aplica un enrutamiento de los k expertos principales con un límite de capacidad que restringe el número máximo de tokens que cada experto puede procesar. Proponemos un novedoso y simple descarte de expertos sobre la red de compuertas para reducir el problema de sobreajuste. A través de extensos experimentos, verificamos que SiRA supera a LoRA y otros enfoques de mezcla de expertos en diferentes configuraciones de tareas únicas y multitarea.
English
Parameter Efficient Tuning has been an prominent approach to adapt the Large
Language Model to downstream tasks. Most previous works considers adding the
dense trainable parameters, where all parameters are used to adapt certain
task. We found this less effective empirically using the example of LoRA that
introducing more trainable parameters does not help. Motivated by this we
investigate the importance of leveraging "sparse" computation and propose SiRA:
sparse mixture of low rank adaption. SiRA leverages the Sparse Mixture of
Expert(SMoE) to boost the performance of LoRA. Specifically it enforces the top
k experts routing with a capacity limit restricting the maximum number of
tokens each expert can process. We propose a novel and simple expert dropout on
top of gating network to reduce the over-fitting issue. Through extensive
experiments, we verify SiRA performs better than LoRA and other mixture of
expert approaches across different single tasks and multitask settings.