Repenser la compression : Modélisation d'ordre réduit des caractéristiques latentes dans les grands modèles de langage
Rethinking Compression: Reduced Order Modelling of Latent Features in Large Language Models
December 12, 2023
Auteurs: Arnav Chavan, Nahush Lele, Deepak Gupta
cs.AI
Résumé
En raison de l'ampleur considérable des modèles de langage de grande taille (LLMs), l'application directe des méthodologies de compression conventionnelles s'avère impraticable. Les exigences computationnelles associées à des mises à jour de gradients même minimales posent des défis, en particulier sur du matériel grand public. Cet article présente une approche innovante pour la compression paramétrique et pratique des LLMs basée sur la modélisation d'ordre réduit, qui implique une décomposition de faible rang dans l'espace des caractéristiques et une re-paramétrisation dans l'espace des poids. Notamment, cette technique de compression fonctionne couche par couche, éliminant ainsi la nécessité d'un dispositif GPU et permettant la compression de modèles à l'échelle du milliard dans des contraintes strictes de mémoire et de temps. Notre méthode représente une avancée significative dans la compression de modèles en exploitant la décomposition matricielle, démontrant une efficacité supérieure par rapport à la méthode de taille structurée actuellement dominante.
English
Due to the substantial scale of Large Language Models (LLMs), the direct
application of conventional compression methodologies proves impractical. The
computational demands associated with even minimal gradient updates present
challenges, particularly on consumer-grade hardware. This paper introduces an
innovative approach for the parametric and practical compression of LLMs based
on reduced order modelling, which entails low-rank decomposition within the
feature space and re-parameterization in the weight space. Notably, this
compression technique operates in a layer-wise manner, obviating the need for a
GPU device and enabling the compression of billion-scale models within
stringent constraints of both memory and time. Our method represents a
significant advancement in model compression by leveraging matrix
decomposition, demonstrating superior efficacy compared to the prevailing
state-of-the-art structured pruning method.