El Cirujano de Modelos de Lenguaje Grande

Resumen

Los modelos de lenguaje de última generación están aumentando cada vez más su tamaño en un esfuerzo por alcanzar el máximo rendimiento en grandes corpus de datos textuales disponibles. Sin embargo, el enorme tamaño de las arquitecturas Transformer dificulta el despliegue de los modelos dentro de limitaciones computacionales, ambientales o específicas del dispositivo. Exploramos la compresión basada en datos de modelos preentrenados existentes como una alternativa al entrenamiento de modelos más pequeños desde cero. Para ello, escalamos aproximaciones de curvatura factorizadas de Kronecker del paisaje de pérdidas objetivo a modelos de lenguaje grandes. Al hacerlo, podemos calcular tanto la asignación dinámica de estructuras que pueden eliminarse como las actualizaciones de los pesos restantes que tienen en cuenta la eliminación. Proporcionamos un marco general para la poda no estructurada, semiestructurada y estructurada, y mejoramos las actualizaciones de pesos para capturar más correlaciones entre ellos, manteniendo la eficiencia computacional. Experimentalmente, nuestro método puede podar filas y columnas de una variedad de modelos OPT y Llamav2-7B entre un 20% y un 30%, con una pérdida de rendimiento insignificante, y logra resultados de última generación en la poda no estructurada y semiestructurada de modelos de lenguaje grandes.

English

State-of-the-art language models are becoming increasingly large in an effort to achieve the highest performance on large corpora of available textual data. However, the sheer size of the Transformer architectures makes it difficult to deploy models within computational, environmental or device-specific constraints. We explore data-driven compression of existing pretrained models as an alternative to training smaller models from scratch. To do so, we scale Kronecker-factored curvature approximations of the target loss landscape to large language models. In doing so, we can compute both the dynamic allocation of structures that can be removed as well as updates of remaining weights that account for the removal. We provide a general framework for unstructured, semi-structured and structured pruning and improve upon weight updates to capture more correlations between weights, while remaining computationally efficient. Experimentally, our method can prune rows and columns from a range of OPT models and Llamav2-7B by 20%-30%, with a negligible loss in performance, and achieve state-of-the-art results in unstructured and semi-structured pruning of large language models.

El Cirujano de Modelos de Lenguaje Grande

The LLM Surgeon

Resumen

Support