LoRAShear : Élagage structuré efficace des grands modèles de langage et récupération des connaissances

papers.abstract

Les modèles de langage de grande taille (LLMs) ont transformé le paysage de l'intelligence artificielle, bien que leur taille considérable présente des défis majeurs en termes de coûts computationnels. Nous présentons LoRAShear, une nouvelle approche efficace pour élaguer structurellement les LLMs et récupérer les connaissances. Pour des LLMs généraux, LoRAShear commence par créer des graphes de dépendance pour identifier les structures minimales à supprimer et analyser la distribution des connaissances. Il procède ensuite à un élagage structurel progressif sur les adaptateurs LoRA, permettant un transfert de connaissances intrinsèque pour mieux préserver l'information dans les structures redondantes. Pour récupérer les connaissances perdues lors de l'élagage, LoRAShear étudie minutieusement et propose des schémas de réglage fin dynamiques avec des adaptateurs de données dynamiques, afin de réduire efficacement l'écart de performance par rapport aux modèles complets. Les résultats numériques démontrent qu'en utilisant seulement un GPU en quelques jours, LoRAShear a efficacement réduit l'empreinte des LLMs de 20 % avec seulement 1,0 % de dégradation de performance, surpassant significativement les méthodes de pointe. Le code source sera disponible à l'adresse https://github.com/microsoft/lorashear.

English

Large Language Models (LLMs) have transformed the landscape of artificial intelligence, while their enormous size presents significant challenges in terms of computational costs. We introduce LoRAShear, a novel efficient approach to structurally prune LLMs and recover knowledge. Given general LLMs, LoRAShear first creates the dependency graphs to discover minimally removal structures and analyze the knowledge distribution. It then proceeds progressive structured pruning on LoRA adaptors and enables inherent knowledge transfer to better preserve the information in the redundant structures. To recover the lost knowledge during pruning, LoRAShear meticulously studies and proposes a dynamic fine-tuning schemes with dynamic data adaptors to effectively narrow down the performance gap to the full models. Numerical results demonstrate that by only using one GPU within a couple of GPU days, LoRAShear effectively reduced footprint of LLMs by 20% with only 1.0% performance degradation and significantly outperforms state-of-the-arts. The source code will be available at https://github.com/microsoft/lorashear.

LoRAShear : Élagage structuré efficace des grands modèles de langage et récupération des connaissances

LoRAShear: Efficient Large Language Model Structured Pruning and Knowledge Recovery

papers.abstract

Support