MaskLLM: Apprendimento della sparità semi-strutturata apprendibile per modelli di linguaggio di grandi dimensioniMaskLLM: Learnable Semi-Structured Sparsity for Large Language Models
I Large Language Models (LLM) si distinguono per il loro massiccio conteggio dei parametri, che tipicamente comporta una significativa ridondanza. Questo lavoro introduce MaskLLM, un metodo di potatura apprendibile che stabilisce una Sparità Semi-strutturata (o "N:M") nei LLM, mirata a ridurre il carico computazionale durante l'inferezza. Invece di sviluppare un nuovo criterio di importanza, MaskLLM modella esplicitamente i pattern N:M come una distribuzione apprendibile attraverso il campionamento Gumbel Softmax. Questo approccio facilita l'addestramento end-to-end su dataset su larga scala e offre due vantaggi notevoli: 1) Maschere di alta qualità - il nostro metodo scala efficacemente su dataset di grandi dimensioni e apprende maschere accurate; 2) Trasferibilità - la modellazione probabilistica della distribuzione delle maschere consente il trasferimento dell'apprendimento della sparità tra domini o compiti. Abbiamo valutato MaskLLM utilizzando una sparità 2:4 su vari LLM, inclusi LLaMA-2, Nemotron-4 e GPT-3, con dimensioni che vanno da 843M a 15B parametri, e i nostri risultati empirici mostrano miglioramenti sostanziali rispetto ai metodi all'avanguardia. Ad esempio, approcci principali raggiungono una perplessità (PPL) di 10 o superiore su Wikitext rispetto al 5.12 PPL del modello denso, ma MaskLLM raggiunge un significativamente inferiore 6.72 PPL semplicemente apprendendo le maschere con pesi congelati. Inoltre, la natura apprendibile di MaskLLM consente maschere personalizzate per un'applicazione senza perdite della sparità 2:4 a compiti o domini successivi. Il codice è disponibile su https://github.com/NVlabs/MaskLLM.