LoRAShear: Potatura Strutturata Efficiente e Recupero della Conoscenza per Modelli Linguistici di Grandi Dimensioni
LoRAShear: Efficient Large Language Model Structured Pruning and Knowledge Recovery
October 24, 2023
Autori: Tianyi Chen, Tianyu Ding, Badal Yadav, Ilya Zharkov, Luming Liang
cs.AI
Abstract
I Large Language Model (LLM) hanno trasformato il panorama dell'intelligenza artificiale, sebbene le loro dimensioni enormi presentino sfide significative in termini di costi computazionali. Introduciamo LoRAShear, un nuovo approccio efficiente per potare strutturalmente i LLM e recuperare la conoscenza. Dato un LLM generico, LoRAShear crea prima i grafi di dipendenza per individuare le strutture di rimozione minima e analizzare la distribuzione della conoscenza. Procede quindi con una potatura strutturale progressiva sugli adattatori LoRA e abilita un trasferimento intrinseco della conoscenza per preservare meglio le informazioni nelle strutture ridondanti. Per recuperare la conoscenza persa durante la potatura, LoRAShear studia meticolosamente e propone schemi di fine-tuning dinamici con adattatori di dati dinamici, riducendo efficacemente il divario prestazionale rispetto ai modelli completi. I risultati numerici dimostrano che, utilizzando solo una GPU in un paio di giorni di elaborazione, LoRAShear ha ridotto efficacemente l'impronta dei LLM del 20% con solo un 1,0% di degradazione delle prestazioni, superando significativamente lo stato dell'arte. Il codice sorgente sarà disponibile all'indirizzo https://github.com/microsoft/lorashear.
English
Large Language Models (LLMs) have transformed the landscape of artificial
intelligence, while their enormous size presents significant challenges in
terms of computational costs. We introduce LoRAShear, a novel efficient
approach to structurally prune LLMs and recover knowledge. Given general LLMs,
LoRAShear first creates the dependency graphs to discover minimally removal
structures and analyze the knowledge distribution. It then proceeds progressive
structured pruning on LoRA adaptors and enables inherent knowledge transfer to
better preserve the information in the redundant structures. To recover the
lost knowledge during pruning, LoRAShear meticulously studies and proposes a
dynamic fine-tuning schemes with dynamic data adaptors to effectively narrow
down the performance gap to the full models. Numerical results demonstrate that
by only using one GPU within a couple of GPU days, LoRAShear effectively
reduced footprint of LLMs by 20% with only 1.0% performance degradation and
significantly outperforms state-of-the-arts. The source code will be available
at https://github.com/microsoft/lorashear.