MaskLLM: Leerbaar Semi-Gestructureerde Spaarzaamheid voor Grote TaalmodellenMaskLLM: Learnable Semi-Structured Sparsity for Large Language Models
Grote Taalmodellen (LLM's) onderscheiden zich door hun enorme aantal parameters, wat doorgaans leidt tot aanzienlijke redundantie. Dit werk introduceert MaskLLM, een leerbare snoeimethode die Semi-gestructureerde (of "N:M") Spaarzaamheid in LLM's tot stand brengt, met als doel de rekenkundige overhead tijdens inferentie te verminderen. In plaats van een nieuwe belangrijkheidscriterium te ontwikkelen, modelleert MaskLLM N:M-patronen expliciet als een leerzame distributie via Gumbel Softmax-sampling. Deze benadering vergemakkelijkt end-to-end training op grootschalige datasets en biedt twee opmerkelijke voordelen: 1) Hoogwaardige Maskers - onze methode schaalt effectief naar grote datasets en leert nauwkeurige maskers; 2) Overdraagbaarheid - het probabilistisch modelleren van maskerdistributie maakt de transfer van spaarzaamheid tussen domeinen of taken mogelijk. We hebben MaskLLM geëvalueerd met 2:4 spaarzaamheid op verschillende LLM's, waaronder LLaMA-2, Nemotron-4 en GPT-3, met groottes variërend van 843M tot 15B parameters, en onze empirische resultaten tonen aanzienlijke verbeteringen ten opzichte van state-of-the-art methoden. Bijvoorbeeld, toonaangevende benaderingen behalen een perplexiteit (PPL) van 10 of meer op Wikitext in vergelijking met de 5.12 PPL van het dichte model, maar MaskLLM behaalt een aanzienlijk lagere 6.72 PPL alleen door de maskers met bevroren gewichten te leren. Bovendien maakt de leerbaarheid van MaskLLM aangepaste maskers mogelijk voor verliesloze toepassing van 2:4 spaarzaamheid op downstreamtaken of domeinen. De code is beschikbaar op https://github.com/NVlabs/MaskLLM.