Repenser la compression : Modélisation d'ordre réduit des caractéristiques latentes dans les grands modèles de langage

papers.abstract

En raison de l'ampleur considérable des modèles de langage de grande taille (LLMs), l'application directe des méthodologies de compression conventionnelles s'avère impraticable. Les exigences computationnelles associées à des mises à jour de gradients même minimales posent des défis, en particulier sur du matériel grand public. Cet article présente une approche innovante pour la compression paramétrique et pratique des LLMs basée sur la modélisation d'ordre réduit, qui implique une décomposition de faible rang dans l'espace des caractéristiques et une re-paramétrisation dans l'espace des poids. Notamment, cette technique de compression fonctionne couche par couche, éliminant ainsi la nécessité d'un dispositif GPU et permettant la compression de modèles à l'échelle du milliard dans des contraintes strictes de mémoire et de temps. Notre méthode représente une avancée significative dans la compression de modèles en exploitant la décomposition matricielle, démontrant une efficacité supérieure par rapport à la méthode de taille structurée actuellement dominante.

English

Due to the substantial scale of Large Language Models (LLMs), the direct application of conventional compression methodologies proves impractical. The computational demands associated with even minimal gradient updates present challenges, particularly on consumer-grade hardware. This paper introduces an innovative approach for the parametric and practical compression of LLMs based on reduced order modelling, which entails low-rank decomposition within the feature space and re-parameterization in the weight space. Notably, this compression technique operates in a layer-wise manner, obviating the need for a GPU device and enabling the compression of billion-scale models within stringent constraints of both memory and time. Our method represents a significant advancement in model compression by leveraging matrix decomposition, demonstrating superior efficacy compared to the prevailing state-of-the-art structured pruning method.

Repenser la compression : Modélisation d'ordre réduit des caractéristiques latentes dans les grands modèles de langage

Rethinking Compression: Reduced Order Modelling of Latent Features in Large Language Models

papers.abstract

Support