MaskLLM : Sparsité Semi-Structurée Apprenable pour les Grands ModÚles de LangageMaskLLM: Learnable Semi-Structured Sparsity for Large Language Models
Les grands modÚles de langage (LLM) se distinguent par leurs énormes nombres de paramÚtres, qui entraßnent généralement une redondance significative. Ce travail présente MaskLLM, une méthode de taille adaptable qui établit une Sparsité Semi-structurée (ou "N:M") dans les LLM, visant à réduire la charge computationnelle lors de l'inférence. Au lieu de développer un nouveau critÚre d'importance, MaskLLM modélise explicitement les motifs N:M comme une distribution apprenable à travers un échantillonnage Gumbel Softmax. Cette approche facilite l'entraßnement de bout en bout sur des ensembles de données à grande échelle et offre deux avantages notables : 1) Masques de haute qualité - notre méthode s'adapte efficacement aux grands ensembles de données et apprend des masques précis ; 2) Transférabilité - la modélisation probabiliste de la distribution des masques permet le transfert d'apprentissage de la sparsité entre domaines ou tùches. Nous avons évalué MaskLLM en utilisant une sparsité de 2:4 sur différents LLM, y compris LLaMA-2, Nemotron-4 et GPT-3, avec des tailles allant de 843M à 15B de paramÚtres, et nos résultats empiriques montrent des améliorations substantielles par rapport aux méthodes de pointe. Par exemple, les approches principales obtiennent une perplexité (PPL) de 10 ou plus sur Wikitext par rapport au modÚle dense à 5,12 PPL, mais MaskLLM atteint significativement 6,72 PPL uniquement en apprenant les masques avec des poids figés. De plus, la nature apprenable de MaskLLM permet des masques personnalisés pour une application sans perte de la sparsité de 2:4 aux tùches ou domaines en aval. Le code est disponible sur https://github.com/NVlabs/MaskLLM.