Neubewertung der Kompression: Reduzierte Ordnungsmodellierung latenter Merkmale in großen Sprachmodellen
Rethinking Compression: Reduced Order Modelling of Latent Features in Large Language Models
December 12, 2023
Autoren: Arnav Chavan, Nahush Lele, Deepak Gupta
cs.AI
Zusammenfassung
Aufgrund des erheblichen Umfangs von Large Language Models (LLMs) erweist sich die direkte Anwendung konventioneller Kompressionsmethoden als unpraktikabel. Die rechenintensiven Anforderungen, die selbst bei minimalen Gradientenaktualisierungen entstehen, stellen insbesondere auf Consumer-Hardware eine Herausforderung dar. Dieses Papier stellt einen innovativen Ansatz zur parametrischen und praktischen Kompression von LLMs vor, der auf reduzierter Ordnungsmodellierung basiert. Dies beinhaltet eine Niedrigrang-Zerlegung im Merkmalsraum und eine Neuparametrisierung im Gewichtsraum. Bemerkenswerterweise arbeitet diese Kompressionstechnik schichtweise, wodurch die Notwendigkeit einer GPU entfällt und die Kompression von Milliarden-skaligen Modellen unter strengen Speicher- und Zeitbeschränkungen ermöglicht wird. Unser Verfahren stellt einen bedeutenden Fortschritt in der Modellkompression dar, indem es Matrixzerlegung nutzt und eine überlegene Effizienz im Vergleich zur derzeit führenden strukturierten Beschneidungsmethode demonstriert.
English
Due to the substantial scale of Large Language Models (LLMs), the direct
application of conventional compression methodologies proves impractical. The
computational demands associated with even minimal gradient updates present
challenges, particularly on consumer-grade hardware. This paper introduces an
innovative approach for the parametric and practical compression of LLMs based
on reduced order modelling, which entails low-rank decomposition within the
feature space and re-parameterization in the weight space. Notably, this
compression technique operates in a layer-wise manner, obviating the need for a
GPU device and enabling the compression of billion-scale models within
stringent constraints of both memory and time. Our method represents a
significant advancement in model compression by leveraging matrix
decomposition, demonstrating superior efficacy compared to the prevailing
state-of-the-art structured pruning method.