LoRAShear: Efficiënte gestructureerde pruning en kennisherstel voor grote taalmmodellen
LoRAShear: Efficient Large Language Model Structured Pruning and Knowledge Recovery
October 24, 2023
Auteurs: Tianyi Chen, Tianyu Ding, Badal Yadav, Ilya Zharkov, Luming Liang
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hebben het landschap van kunstmatige intelligentie getransformeerd, maar hun enorme omvang brengt aanzienlijke uitdagingen met zich mee op het gebied van rekenkosten. Wij introduceren LoRAShear, een nieuwe efficiënte aanpak om LLMs structureel te snoeien en kennis te herstellen. Gegeven algemene LLMs, creëert LoRAShear eerst afhankelijkheidsgrafieken om minimaal te verwijderen structuren te ontdekken en de kennisverdeling te analyseren. Vervolgens voert het progressieve gestructureerde snoei uit op LoRA-adapters en maakt het inherente kennisoverdracht mogelijk om de informatie in de redundante structuren beter te behouden. Om de verloren kennis tijdens het snoeien te herstellen, bestudeert LoRAShear zorgvuldig en stelt het dynamische fine-tuning schema's voor met dynamische data-adapters om de prestatiekloof ten opzichte van de volledige modellen effectief te verkleinen. Numerieke resultaten tonen aan dat LoRAShear, door slechts één GPU te gebruiken binnen een paar GPU-dagen, de footprint van LLMs effectief met 20% heeft verminderd met slechts 1,0% prestatieverlies en significant beter presteert dan state-of-the-art methoden. De broncode zal beschikbaar zijn op https://github.com/microsoft/lorashear.
English
Large Language Models (LLMs) have transformed the landscape of artificial
intelligence, while their enormous size presents significant challenges in
terms of computational costs. We introduce LoRAShear, a novel efficient
approach to structurally prune LLMs and recover knowledge. Given general LLMs,
LoRAShear first creates the dependency graphs to discover minimally removal
structures and analyze the knowledge distribution. It then proceeds progressive
structured pruning on LoRA adaptors and enables inherent knowledge transfer to
better preserve the information in the redundant structures. To recover the
lost knowledge during pruning, LoRAShear meticulously studies and proposes a
dynamic fine-tuning schemes with dynamic data adaptors to effectively narrow
down the performance gap to the full models. Numerical results demonstrate that
by only using one GPU within a couple of GPU days, LoRAShear effectively
reduced footprint of LLMs by 20% with only 1.0% performance degradation and
significantly outperforms state-of-the-arts. The source code will be available
at https://github.com/microsoft/lorashear.