Replanteando la Compresión: Modelado de Orden Reducido en Características Latentes de Modelos de Lenguaje a Gran Escala
Rethinking Compression: Reduced Order Modelling of Latent Features in Large Language Models
December 12, 2023
Autores: Arnav Chavan, Nahush Lele, Deepak Gupta
cs.AI
Resumen
Debido a la escala considerable de los Modelos de Lenguaje de Gran Tamaño (LLMs, por sus siglas en inglés), la aplicación directa de metodologías convencionales de compresión resulta impracticable. Las demandas computacionales asociadas incluso con actualizaciones mínimas de gradientes presentan desafíos, particularmente en hardware de grado consumidor. Este artículo introduce un enfoque innovador para la compresión paramétrica y práctica de LLMs basado en modelado de orden reducido, que implica descomposición de bajo rango dentro del espacio de características y re-parametrización en el espacio de pesos. Cabe destacar que esta técnica de compresión opera de manera capa por capa, eliminando la necesidad de un dispositivo GPU y permitiendo la compresión de modelos de escala de miles de millones bajo restricciones estrictas tanto de memoria como de tiempo. Nuestro método representa un avance significativo en la compresión de modelos al aprovechar la descomposición matricial, demostrando una eficacia superior en comparación con el método predominante de poda estructurada del estado del arte.
English
Due to the substantial scale of Large Language Models (LLMs), the direct
application of conventional compression methodologies proves impractical. The
computational demands associated with even minimal gradient updates present
challenges, particularly on consumer-grade hardware. This paper introduces an
innovative approach for the parametric and practical compression of LLMs based
on reduced order modelling, which entails low-rank decomposition within the
feature space and re-parameterization in the weight space. Notably, this
compression technique operates in a layer-wise manner, obviating the need for a
GPU device and enabling the compression of billion-scale models within
stringent constraints of both memory and time. Our method represents a
significant advancement in model compression by leveraging matrix
decomposition, demonstrating superior efficacy compared to the prevailing
state-of-the-art structured pruning method.