De LLM-chirurg

Samenvatting

State-of-the-art taalmodelen worden steeds groter in een poging om de hoogste prestaties te behalen op grote corpora van beschikbare tekstuele data. De omvang van Transformer-architecturen maakt het echter moeilijk om modellen te implementeren binnen computationele, milieu- of apparaatspecifieke beperkingen. Wij onderzoeken data-gedreven compressie van bestaande vooraf getrainde modellen als alternatief voor het trainen van kleinere modellen vanaf nul. Hiervoor schalen we Kronecker-gefactoriseerde krommingsbenaderingen van het doelverlieslandschap toe op grote taalmodelen. Hierdoor kunnen we zowel de dynamische toewijzing van structuren die kunnen worden verwijderd berekenen, als updates van overgebleven gewichten die rekening houden met de verwijdering. Wij bieden een algemeen raamwerk voor ongestructureerde, semi-gestructureerde en gestructureerde pruning en verbeteren gewichtsupdates om meer correlaties tussen gewichten vast te leggen, terwijl we computationeel efficiënt blijven. Experimenteel kan onze methode rijen en kolommen van een reeks OPT-modellen en Llamav2-7B met 20%-30% verminderen, met een verwaarloosbaar prestatieverlies, en behalen we state-of-the-art resultaten in ongestructureerde en semi-gestructureerde pruning van grote taalmodelen.

English

State-of-the-art language models are becoming increasingly large in an effort to achieve the highest performance on large corpora of available textual data. However, the sheer size of the Transformer architectures makes it difficult to deploy models within computational, environmental or device-specific constraints. We explore data-driven compression of existing pretrained models as an alternative to training smaller models from scratch. To do so, we scale Kronecker-factored curvature approximations of the target loss landscape to large language models. In doing so, we can compute both the dynamic allocation of structures that can be removed as well as updates of remaining weights that account for the removal. We provide a general framework for unstructured, semi-structured and structured pruning and improve upon weight updates to capture more correlations between weights, while remaining computationally efficient. Experimentally, our method can prune rows and columns from a range of OPT models and Llamav2-7B by 20%-30%, with a negligible loss in performance, and achieve state-of-the-art results in unstructured and semi-structured pruning of large language models.

De LLM-chirurg

The LLM Surgeon

Samenvatting

Support