MaskLLM: Esparsidade Semiestruturada Aprendível para Modelos de Linguagem de Grande EscalaMaskLLM: Learnable Semi-Structured Sparsity for Large Language Models
Os Modelos de Linguagem de Grande Escala (LLMs) se destacam por seus enormes números de parâmetros, que geralmente resultam em uma redundância significativa. Este trabalho apresenta o MaskLLM, um método de poda aprendível que estabelece a Esparsidade Semi-estruturada (ou "N:M") em LLMs, com o objetivo de reduzir a sobrecarga computacional durante a inferência. Em vez de desenvolver um novo critério de importância, o MaskLLM modela explicitamente padrões N:M como uma distribuição aprendível por meio de amostragem Gumbel Softmax. Essa abordagem facilita o treinamento de ponta a ponta em conjuntos de dados em grande escala e oferece duas vantagens notáveis: 1) Máscaras de alta qualidade - nosso método escala efetivamente para grandes conjuntos de dados e aprende máscaras precisas; 2) Transferibilidade - a modelagem probabilística da distribuição de máscaras permite a aprendizagem de transferência de esparsidade entre domínios ou tarefas. Avaliamos o MaskLLM usando uma esparsidade de 2:4 em vários LLMs, incluindo LLaMA-2, Nemotron-4 e GPT-3, com tamanhos variando de 843M a 15B parâmetros, e nossos resultados empíricos mostram melhorias substanciais em relação aos métodos de ponta. Por exemplo, abordagens líderes alcançam uma perplexidade (PPL) de 10 ou mais no Wikitext em comparação com os 5,12 PPL do modelo denso, mas o MaskLLM alcança um PPL significativamente menor de 6,72 apenas aprendendo as máscaras com pesos congelados. Além disso, a natureza aprendível do MaskLLM permite máscaras personalizadas para a aplicação sem perdas de uma esparsidade de 2:4 em tarefas ou domínios subsequentes. O código está disponível em https://github.com/NVlabs/MaskLLM.