Переосмысление сжатия: моделирование пониженного порядка латентных признаков в крупных языковых моделях
Rethinking Compression: Reduced Order Modelling of Latent Features in Large Language Models
December 12, 2023
Авторы: Arnav Chavan, Nahush Lele, Deepak Gupta
cs.AI
Аннотация
Из-за значительного масштаба больших языковых моделей (LLM) прямое применение традиционных методов сжатия оказывается непрактичным. Вычислительные требования, связанные даже с минимальными обновлениями градиентов, создают трудности, особенно на потребительском оборудовании. В данной статье представлен инновационный подход к параметрическому и практическому сжатию LLM, основанный на моделировании пониженного порядка, которое включает низкоранговое разложение в пространстве признаков и перепараметризацию в пространстве весов. Примечательно, что эта техника сжатия работает послойно, устраняя необходимость в GPU и позволяя сжимать модели масштаба миллиардов параметров в условиях строгих ограничений по памяти и времени. Наш метод представляет собой значительный прогресс в сжатии моделей за счет использования матричного разложения, демонстрируя превосходную эффективность по сравнению с современным методом структурированного прореживания.
English
Due to the substantial scale of Large Language Models (LLMs), the direct
application of conventional compression methodologies proves impractical. The
computational demands associated with even minimal gradient updates present
challenges, particularly on consumer-grade hardware. This paper introduces an
innovative approach for the parametric and practical compression of LLMs based
on reduced order modelling, which entails low-rank decomposition within the
feature space and re-parameterization in the weight space. Notably, this
compression technique operates in a layer-wise manner, obviating the need for a
GPU device and enabling the compression of billion-scale models within
stringent constraints of both memory and time. Our method represents a
significant advancement in model compression by leveraging matrix
decomposition, demonstrating superior efficacy compared to the prevailing
state-of-the-art structured pruning method.