LoRAShear: Efficiënte gestructureerde pruning en kennisherstel voor grote taalmmodellen

Samenvatting

Grote Taalmodellen (LLMs) hebben het landschap van kunstmatige intelligentie getransformeerd, maar hun enorme omvang brengt aanzienlijke uitdagingen met zich mee op het gebied van rekenkosten. Wij introduceren LoRAShear, een nieuwe efficiënte aanpak om LLMs structureel te snoeien en kennis te herstellen. Gegeven algemene LLMs, creëert LoRAShear eerst afhankelijkheidsgrafieken om minimaal te verwijderen structuren te ontdekken en de kennisverdeling te analyseren. Vervolgens voert het progressieve gestructureerde snoei uit op LoRA-adapters en maakt het inherente kennisoverdracht mogelijk om de informatie in de redundante structuren beter te behouden. Om de verloren kennis tijdens het snoeien te herstellen, bestudeert LoRAShear zorgvuldig en stelt het dynamische fine-tuning schema's voor met dynamische data-adapters om de prestatiekloof ten opzichte van de volledige modellen effectief te verkleinen. Numerieke resultaten tonen aan dat LoRAShear, door slechts één GPU te gebruiken binnen een paar GPU-dagen, de footprint van LLMs effectief met 20% heeft verminderd met slechts 1,0% prestatieverlies en significant beter presteert dan state-of-the-art methoden. De broncode zal beschikbaar zijn op https://github.com/microsoft/lorashear.

English

Large Language Models (LLMs) have transformed the landscape of artificial intelligence, while their enormous size presents significant challenges in terms of computational costs. We introduce LoRAShear, a novel efficient approach to structurally prune LLMs and recover knowledge. Given general LLMs, LoRAShear first creates the dependency graphs to discover minimally removal structures and analyze the knowledge distribution. It then proceeds progressive structured pruning on LoRA adaptors and enables inherent knowledge transfer to better preserve the information in the redundant structures. To recover the lost knowledge during pruning, LoRAShear meticulously studies and proposes a dynamic fine-tuning schemes with dynamic data adaptors to effectively narrow down the performance gap to the full models. Numerical results demonstrate that by only using one GPU within a couple of GPU days, LoRAShear effectively reduced footprint of LLMs by 20% with only 1.0% performance degradation and significantly outperforms state-of-the-arts. The source code will be available at https://github.com/microsoft/lorashear.

LoRAShear: Efficiënte gestructureerde pruning en kennisherstel voor grote taalmmodellen

LoRAShear: Efficient Large Language Model Structured Pruning and Knowledge Recovery

Samenvatting

Support