LoRAShear : Élagage structuré efficace des grands modèles de langage et récupération des connaissances
LoRAShear: Efficient Large Language Model Structured Pruning and Knowledge Recovery
October 24, 2023
papers.authors: Tianyi Chen, Tianyu Ding, Badal Yadav, Ilya Zharkov, Luming Liang
cs.AI
papers.abstract
Les modèles de langage de grande taille (LLMs) ont transformé le paysage de l'intelligence artificielle, bien que leur taille considérable présente des défis majeurs en termes de coûts computationnels. Nous présentons LoRAShear, une nouvelle approche efficace pour élaguer structurellement les LLMs et récupérer les connaissances. Pour des LLMs généraux, LoRAShear commence par créer des graphes de dépendance pour identifier les structures minimales à supprimer et analyser la distribution des connaissances. Il procède ensuite à un élagage structurel progressif sur les adaptateurs LoRA, permettant un transfert de connaissances intrinsèque pour mieux préserver l'information dans les structures redondantes. Pour récupérer les connaissances perdues lors de l'élagage, LoRAShear étudie minutieusement et propose des schémas de réglage fin dynamiques avec des adaptateurs de données dynamiques, afin de réduire efficacement l'écart de performance par rapport aux modèles complets. Les résultats numériques démontrent qu'en utilisant seulement un GPU en quelques jours, LoRAShear a efficacement réduit l'empreinte des LLMs de 20 % avec seulement 1,0 % de dégradation de performance, surpassant significativement les méthodes de pointe. Le code source sera disponible à l'adresse https://github.com/microsoft/lorashear.
English
Large Language Models (LLMs) have transformed the landscape of artificial
intelligence, while their enormous size presents significant challenges in
terms of computational costs. We introduce LoRAShear, a novel efficient
approach to structurally prune LLMs and recover knowledge. Given general LLMs,
LoRAShear first creates the dependency graphs to discover minimally removal
structures and analyze the knowledge distribution. It then proceeds progressive
structured pruning on LoRA adaptors and enables inherent knowledge transfer to
better preserve the information in the redundant structures. To recover the
lost knowledge during pruning, LoRAShear meticulously studies and proposes a
dynamic fine-tuning schemes with dynamic data adaptors to effectively narrow
down the performance gap to the full models. Numerical results demonstrate that
by only using one GPU within a couple of GPU days, LoRAShear effectively
reduced footprint of LLMs by 20% with only 1.0% performance degradation and
significantly outperforms state-of-the-arts. The source code will be available
at https://github.com/microsoft/lorashear.