MultiLoRA : Démocratiser LoRA pour un meilleur apprentissage multitâche
MultiLoRA: Democratizing LoRA for Better Multi-Task Learning
November 20, 2023
Auteurs: Yiming Wang, Yu Lin, Xiaodong Zeng, Guannan Zhang
cs.AI
Résumé
LoRA atteint une efficacité remarquable en termes de ressources et des performances comparables lors de l'adaptation de LLM pour des tâches spécifiques. Depuis que ChatGPT a démontré des performances supérieures sur diverses tâches, il y a eu un désir croissant d'adapter un seul modèle pour toutes les tâches. Cependant, le rang explicite faible de LoRA limite les performances d'adaptation dans des scénarios multi-tâches complexes. LoRA est dominé par un petit nombre de vecteurs singuliers principaux, tandis que le fine-tuning se décompose en un ensemble de transformations unitaires moins importantes. Dans cet article, nous proposons MultiLoRA pour une meilleure adaptation multi-tâches en réduisant la dominance des vecteurs singuliers principaux observés dans LoRA. MultiLoRA étend les modules LoRA horizontalement et modifie l'initialisation des paramètres des matrices d'adaptation pour réduire la dépendance des paramètres, produisant ainsi des sous-espaces unitaires plus équilibrés. Nous construisons de manière inédite des données d'entraînement spécialisées en mélangeant des ensembles de données de suivi d'instructions, de compréhension du langage naturel et de connaissances générales, afin de couvrir des échantillons sémantiquement et syntaxiquement différents. Avec seulement 2,5 % de paramètres supplémentaires, MultiLoRA surpasse les versions à LoRA unique et le fine-tuning sur plusieurs benchmarks et échelles de modèles. Une investigation plus poussée des matrices de mise à jour des poids de MultiLoRA montre une dépendance réduite aux vecteurs singuliers principaux et des contributions plus démocratiques des transformations unitaires.
English
LoRA achieves remarkable resource efficiency and comparable performance when
adapting LLMs for specific tasks. Since ChatGPT demonstrated superior
performance on various tasks, there has been a growing desire to adapt one
model for all tasks. However, the explicit low-rank of LoRA limits the
adaptation performance in complex multi-task scenarios. LoRA is dominated by a
small number of top singular vectors while fine-tuning decomposes into a set of
less important unitary transforms. In this paper, we propose MultiLoRA for
better multi-task adaptation by reducing the dominance of top singular vectors
observed in LoRA. MultiLoRA scales LoRA modules horizontally and change
parameter initialization of adaptation matrices to reduce parameter dependency,
thus yields more balanced unitary subspaces. We unprecedentedly construct
specialized training data by mixing datasets of instruction follow, natural
language understanding, world knowledge, to cover semantically and
syntactically different samples. With only 2.5% of additional parameters,
MultiLoRA outperforms single LoRA counterparts and fine-tuning on multiple
benchmarks and model scales. Further investigation into weight update matrices
of MultiLoRA exhibits reduced dependency on top singular vectors and more
democratic unitary transform contributions.