LoRAShear: Potatura Strutturata Efficiente e Recupero della Conoscenza per Modelli Linguistici di Grandi Dimensioni

Abstract

I Large Language Model (LLM) hanno trasformato il panorama dell'intelligenza artificiale, sebbene le loro dimensioni enormi presentino sfide significative in termini di costi computazionali. Introduciamo LoRAShear, un nuovo approccio efficiente per potare strutturalmente i LLM e recuperare la conoscenza. Dato un LLM generico, LoRAShear crea prima i grafi di dipendenza per individuare le strutture di rimozione minima e analizzare la distribuzione della conoscenza. Procede quindi con una potatura strutturale progressiva sugli adattatori LoRA e abilita un trasferimento intrinseco della conoscenza per preservare meglio le informazioni nelle strutture ridondanti. Per recuperare la conoscenza persa durante la potatura, LoRAShear studia meticolosamente e propone schemi di fine-tuning dinamici con adattatori di dati dinamici, riducendo efficacemente il divario prestazionale rispetto ai modelli completi. I risultati numerici dimostrano che, utilizzando solo una GPU in un paio di giorni di elaborazione, LoRAShear ha ridotto efficacemente l'impronta dei LLM del 20% con solo un 1,0% di degradazione delle prestazioni, superando significativamente lo stato dell'arte. Il codice sorgente sarà disponibile all'indirizzo https://github.com/microsoft/lorashear.

English

Large Language Models (LLMs) have transformed the landscape of artificial intelligence, while their enormous size presents significant challenges in terms of computational costs. We introduce LoRAShear, a novel efficient approach to structurally prune LLMs and recover knowledge. Given general LLMs, LoRAShear first creates the dependency graphs to discover minimally removal structures and analyze the knowledge distribution. It then proceeds progressive structured pruning on LoRA adaptors and enables inherent knowledge transfer to better preserve the information in the redundant structures. To recover the lost knowledge during pruning, LoRAShear meticulously studies and proposes a dynamic fine-tuning schemes with dynamic data adaptors to effectively narrow down the performance gap to the full models. Numerical results demonstrate that by only using one GPU within a couple of GPU days, LoRAShear effectively reduced footprint of LLMs by 20% with only 1.0% performance degradation and significantly outperforms state-of-the-arts. The source code will be available at https://github.com/microsoft/lorashear.

LoRAShear: Potatura Strutturata Efficiente e Recupero della Conoscenza per Modelli Linguistici di Grandi Dimensioni

LoRAShear: Efficient Large Language Model Structured Pruning and Knowledge Recovery

Abstract

Support