Repensando a Compressão: Modelagem de Ordem Reduzida de Características Latentes em Modelos de Linguagem de Grande Escala
Rethinking Compression: Reduced Order Modelling of Latent Features in Large Language Models
December 12, 2023
Autores: Arnav Chavan, Nahush Lele, Deepak Gupta
cs.AI
Resumo
Devido à escala substancial dos Modelos de Linguagem de Grande Porte (LLMs, na sigla em inglês), a aplicação direta de metodologias convencionais de compressão mostra-se impraticável. As demandas computacionais associadas até mesmo a atualizações mínimas de gradientes apresentam desafios, especialmente em hardware de nível consumidor. Este artigo introduz uma abordagem inovadora para a compressão paramétrica e prática de LLMs baseada em modelagem de ordem reduzida, que envolve decomposição de baixa classificação no espaço de características e reparametrização no espaço de pesos. Notavelmente, essa técnica de compressão opera de maneira camada por camada, dispensando a necessidade de um dispositivo GPU e permitindo a compressão de modelos em escala de bilhões dentro de restrições rigorosas de memória e tempo. Nosso método representa um avanço significativo na compressão de modelos ao aproveitar a decomposição matricial, demonstrando eficácia superior em comparação com o método predominante de poda estruturada do estado da arte.
English
Due to the substantial scale of Large Language Models (LLMs), the direct
application of conventional compression methodologies proves impractical. The
computational demands associated with even minimal gradient updates present
challenges, particularly on consumer-grade hardware. This paper introduces an
innovative approach for the parametric and practical compression of LLMs based
on reduced order modelling, which entails low-rank decomposition within the
feature space and re-parameterization in the weight space. Notably, this
compression technique operates in a layer-wise manner, obviating the need for a
GPU device and enabling the compression of billion-scale models within
stringent constraints of both memory and time. Our method represents a
significant advancement in model compression by leveraging matrix
decomposition, demonstrating superior efficacy compared to the prevailing
state-of-the-art structured pruning method.