El Cirujano de Modelos de Lenguaje Grande
The LLM Surgeon
December 28, 2023
Autores: Tycho F. A. van der Ouderaa, Markus Nagel, Mart van Baalen, Yuki M. Asano, Tijmen Blankevoort
cs.AI
Resumen
Los modelos de lenguaje de última generación están aumentando cada vez más su tamaño en un esfuerzo por alcanzar el máximo rendimiento en grandes corpus de datos textuales disponibles. Sin embargo, el enorme tamaño de las arquitecturas Transformer dificulta el despliegue de los modelos dentro de limitaciones computacionales, ambientales o específicas del dispositivo. Exploramos la compresión basada en datos de modelos preentrenados existentes como una alternativa al entrenamiento de modelos más pequeños desde cero. Para ello, escalamos aproximaciones de curvatura factorizadas de Kronecker del paisaje de pérdidas objetivo a modelos de lenguaje grandes. Al hacerlo, podemos calcular tanto la asignación dinámica de estructuras que pueden eliminarse como las actualizaciones de los pesos restantes que tienen en cuenta la eliminación. Proporcionamos un marco general para la poda no estructurada, semiestructurada y estructurada, y mejoramos las actualizaciones de pesos para capturar más correlaciones entre ellos, manteniendo la eficiencia computacional. Experimentalmente, nuestro método puede podar filas y columnas de una variedad de modelos OPT y Llamav2-7B entre un 20% y un 30%, con una pérdida de rendimiento insignificante, y logra resultados de última generación en la poda no estructurada y semiestructurada de modelos de lenguaje grandes.
English
State-of-the-art language models are becoming increasingly large in an effort
to achieve the highest performance on large corpora of available textual data.
However, the sheer size of the Transformer architectures makes it difficult to
deploy models within computational, environmental or device-specific
constraints. We explore data-driven compression of existing pretrained models
as an alternative to training smaller models from scratch. To do so, we scale
Kronecker-factored curvature approximations of the target loss landscape to
large language models. In doing so, we can compute both the dynamic allocation
of structures that can be removed as well as updates of remaining weights that
account for the removal. We provide a general framework for unstructured,
semi-structured and structured pruning and improve upon weight updates to
capture more correlations between weights, while remaining computationally
efficient. Experimentally, our method can prune rows and columns from a range
of OPT models and Llamav2-7B by 20%-30%, with a negligible loss in performance,
and achieve state-of-the-art results in unstructured and semi-structured
pruning of large language models.