MaskLLM : Sparsité Semi-Structurée Apprenable pour les Grands Modèles de Langage

papers.abstract

Les grands modèles de langage (LLM) se distinguent par leurs énormes nombres de paramètres, qui entraînent généralement une redondance significative. Ce travail présente MaskLLM, une méthode de taille adaptable qui établit une Sparsité Semi-structurée (ou "N:M") dans les LLM, visant à réduire la charge computationnelle lors de l'inférence. Au lieu de développer un nouveau critère d'importance, MaskLLM modélise explicitement les motifs N:M comme une distribution apprenable à travers un échantillonnage Gumbel Softmax. Cette approche facilite l'entraînement de bout en bout sur des ensembles de données à grande échelle et offre deux avantages notables : 1) Masques de haute qualité - notre méthode s'adapte efficacement aux grands ensembles de données et apprend des masques précis ; 2) Transférabilité - la modélisation probabiliste de la distribution des masques permet le transfert d'apprentissage de la sparsité entre domaines ou tâches. Nous avons évalué MaskLLM en utilisant une sparsité de 2:4 sur différents LLM, y compris LLaMA-2, Nemotron-4 et GPT-3, avec des tailles allant de 843M à 15B de paramètres, et nos résultats empiriques montrent des améliorations substantielles par rapport aux méthodes de pointe. Par exemple, les approches principales obtiennent une perplexité (PPL) de 10 ou plus sur Wikitext par rapport au modèle dense à 5,12 PPL, mais MaskLLM atteint significativement 6,72 PPL uniquement en apprenant les masques avec des poids figés. De plus, la nature apprenable de MaskLLM permet des masques personnalisés pour une application sans perte de la sparsité de 2:4 aux tâches ou domaines en aval. Le code est disponible sur https://github.com/NVlabs/MaskLLM.

English

Large Language Models (LLMs) are distinguished by their massive parameter counts, which typically result in significant redundancy. This work introduces MaskLLM, a learnable pruning method that establishes Semi-structured (or ``N:M'') Sparsity in LLMs, aimed at reducing computational overhead during inference. Instead of developing a new importance criterion, MaskLLM explicitly models N:M patterns as a learnable distribution through Gumbel Softmax sampling. This approach facilitates end-to-end training on large-scale datasets and offers two notable advantages: 1) High-quality Masks - our method effectively scales to large datasets and learns accurate masks; 2) Transferability - the probabilistic modeling of mask distribution enables the transfer learning of sparsity across domains or tasks. We assessed MaskLLM using 2:4 sparsity on various LLMs, including LLaMA-2, Nemotron-4, and GPT-3, with sizes ranging from 843M to 15B parameters, and our empirical results show substantial improvements over state-of-the-art methods. For instance, leading approaches achieve a perplexity (PPL) of 10 or greater on Wikitext compared to the dense model's 5.12 PPL, but MaskLLM achieves a significantly lower 6.72 PPL solely by learning the masks with frozen weights. Furthermore, MaskLLM's learnable nature allows customized masks for lossless application of 2:4 sparsity to downstream tasks or domains. Code is available at https://github.com/NVlabs/MaskLLM.

MaskLLM : Sparsité Semi-Structurée Apprenable pour les Grands Modèles de Langage

MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models

papers.abstract

Support