MaskLLM: Esparsidad Semi-Estructurada Aprendible para Modelos de Lenguaje GrandesMaskLLM: Learnable Semi-Structured Sparsity for Large Language Models
Los Modelos de Lenguaje Grandes (LLMs) se distinguen por sus enormes recuentos de parámetros, que generalmente resultan en una redundancia significativa. Este trabajo presenta MaskLLM, un método de poda aprendible que establece una Esparsidad Semiestructurada (o "N:M") en LLMs, con el objetivo de reducir la sobrecarga computacional durante la inferencia. En lugar de desarrollar un nuevo criterio de importancia, MaskLLM modela explícitamente patrones N:M como una distribución aprendible a través de muestreo Gumbel Softmax. Este enfoque facilita el entrenamiento de extremo a extremo en conjuntos de datos a gran escala y ofrece dos ventajas notables: 1) Máscaras de alta calidad: nuestro método escala eficazmente a conjuntos de datos grandes y aprende máscaras precisas; 2) Transferibilidad: la modelización probabilística de la distribución de máscaras permite el aprendizaje de transferencia de la esparsidad entre dominios o tareas. Evaluamos MaskLLM utilizando una esparsidad de 2:4 en varios LLMs, incluidos LLaMA-2, Nemotron-4 y GPT-3, con tamaños que van desde 843M hasta 15B parámetros, y nuestros resultados empíricos muestran mejoras sustanciales sobre los métodos de vanguardia. Por ejemplo, en Wikitext, enfoques líderes logran una perplejidad (PPL) de 10 o más en comparación con el 5.12 PPL del modelo denso, pero MaskLLM logra un PPL significativamente menor de 6.72 únicamente aprendiendo las máscaras con pesos congelados. Además, la naturaleza aprendible de MaskLLM permite máscaras personalizadas para la aplicación sin pérdida de una esparsidad de 2:4 en tareas o dominios posteriores. El código está disponible en https://github.com/NVlabs/MaskLLM.