De LLM-chirurg
The LLM Surgeon
December 28, 2023
Auteurs: Tycho F. A. van der Ouderaa, Markus Nagel, Mart van Baalen, Yuki M. Asano, Tijmen Blankevoort
cs.AI
Samenvatting
State-of-the-art taalmodelen worden steeds groter in een poging om de hoogste prestaties te behalen op grote corpora van beschikbare tekstuele data. De omvang van Transformer-architecturen maakt het echter moeilijk om modellen te implementeren binnen computationele, milieu- of apparaatspecifieke beperkingen. Wij onderzoeken data-gedreven compressie van bestaande vooraf getrainde modellen als alternatief voor het trainen van kleinere modellen vanaf nul. Hiervoor schalen we Kronecker-gefactoriseerde krommingsbenaderingen van het doelverlieslandschap toe op grote taalmodelen. Hierdoor kunnen we zowel de dynamische toewijzing van structuren die kunnen worden verwijderd berekenen, als updates van overgebleven gewichten die rekening houden met de verwijdering. Wij bieden een algemeen raamwerk voor ongestructureerde, semi-gestructureerde en gestructureerde pruning en verbeteren gewichtsupdates om meer correlaties tussen gewichten vast te leggen, terwijl we computationeel efficiënt blijven. Experimenteel kan onze methode rijen en kolommen van een reeks OPT-modellen en Llamav2-7B met 20%-30% verminderen, met een verwaarloosbaar prestatieverlies, en behalen we state-of-the-art resultaten in ongestructureerde en semi-gestructureerde pruning van grote taalmodelen.
English
State-of-the-art language models are becoming increasingly large in an effort
to achieve the highest performance on large corpora of available textual data.
However, the sheer size of the Transformer architectures makes it difficult to
deploy models within computational, environmental or device-specific
constraints. We explore data-driven compression of existing pretrained models
as an alternative to training smaller models from scratch. To do so, we scale
Kronecker-factored curvature approximations of the target loss landscape to
large language models. In doing so, we can compute both the dynamic allocation
of structures that can be removed as well as updates of remaining weights that
account for the removal. We provide a general framework for unstructured,
semi-structured and structured pruning and improve upon weight updates to
capture more correlations between weights, while remaining computationally
efficient. Experimentally, our method can prune rows and columns from a range
of OPT models and Llamav2-7B by 20%-30%, with a negligible loss in performance,
and achieve state-of-the-art results in unstructured and semi-structured
pruning of large language models.