MaskLLM: Lernbare halbstrukturierte Sparsamkeit für große SprachmodelleMaskLLM: Learnable Semi-Structured Sparsity for Large Language Models
Große Sprachmodelle (LLMs) zeichnen sich durch ihre massiven Parameteranzahlen aus, die in der Regel zu erheblicher Redundanz führen. Diese Arbeit stellt MaskLLM vor, eine erlernbare Beschneidungsmethode, die Semi-strukturierte (oder "N:M") Sparsamkeit in LLMs einführt, um den Rechenaufwand während der Inferenz zu reduzieren. Anstatt ein neues Wichtigkeitskriterium zu entwickeln, modelliert MaskLLM N:M-Muster explizit als erlernbare Verteilung durch Gumbel-Softmax-Abtastung. Dieser Ansatz erleichtert das End-to-End-Training auf groß angelegten Datensätzen und bietet zwei bemerkenswerte Vorteile: 1) Hochwertige Masken - unsere Methode skaliert effektiv auf große Datensätze und lernt präzise Masken; 2) Übertragbarkeit - die probabilistische Modellierung der Maskenverteilung ermöglicht das Transferlernen von Sparsamkeit über Domänen oder Aufgaben hinweg. Wir haben MaskLLM unter Verwendung von 2:4-Sparsamkeit auf verschiedenen LLMs, einschließlich LLaMA-2, Nemotron-4 und GPT-3, mit Größen von 843M bis 15B Parametern, bewertet, und unsere empirischen Ergebnisse zeigen signifikante Verbesserungen gegenüber state-of-the-art Methoden. Beispielsweise erreichen führende Ansätze eine Perplexität (PPL) von 10 oder mehr auf Wikitext im Vergleich zu den 5,12 PPL des dichten Modells, aber MaskLLM erreicht allein durch das Erlernen der Masken mit eingefrorenen Gewichten eine deutlich niedrigere PPL von 6,72. Darüber hinaus ermöglicht die erlernbare Natur von MaskLLM maßgeschneiderte Masken für den verlustfreien Einsatz von 2:4-Sparsamkeit in nachgelagerten Aufgaben oder Domänen. Der Code ist unter https://github.com/NVlabs/MaskLLM verfügbar.