Replanteando la Compresión: Modelado de Orden Reducido en Características Latentes de Modelos de Lenguaje a Gran Escala

Resumen

Debido a la escala considerable de los Modelos de Lenguaje de Gran Tamaño (LLMs, por sus siglas en inglés), la aplicación directa de metodologías convencionales de compresión resulta impracticable. Las demandas computacionales asociadas incluso con actualizaciones mínimas de gradientes presentan desafíos, particularmente en hardware de grado consumidor. Este artículo introduce un enfoque innovador para la compresión paramétrica y práctica de LLMs basado en modelado de orden reducido, que implica descomposición de bajo rango dentro del espacio de características y re-parametrización en el espacio de pesos. Cabe destacar que esta técnica de compresión opera de manera capa por capa, eliminando la necesidad de un dispositivo GPU y permitiendo la compresión de modelos de escala de miles de millones bajo restricciones estrictas tanto de memoria como de tiempo. Nuestro método representa un avance significativo en la compresión de modelos al aprovechar la descomposición matricial, demostrando una eficacia superior en comparación con el método predominante de poda estructurada del estado del arte.

English

Due to the substantial scale of Large Language Models (LLMs), the direct application of conventional compression methodologies proves impractical. The computational demands associated with even minimal gradient updates present challenges, particularly on consumer-grade hardware. This paper introduces an innovative approach for the parametric and practical compression of LLMs based on reduced order modelling, which entails low-rank decomposition within the feature space and re-parameterization in the weight space. Notably, this compression technique operates in a layer-wise manner, obviating the need for a GPU device and enabling the compression of billion-scale models within stringent constraints of both memory and time. Our method represents a significant advancement in model compression by leveraging matrix decomposition, demonstrating superior efficacy compared to the prevailing state-of-the-art structured pruning method.

Replanteando la Compresión: Modelado de Orden Reducido en Características Latentes de Modelos de Lenguaje a Gran Escala

Rethinking Compression: Reduced Order Modelling of Latent Features in Large Language Models

Resumen

Support