Swift-SVD: Теоретическая оптимальность встречается с практической эффективностью в низкоранговом сжатии больших языковых моделей

Аннотация

Развертывание больших языковых моделей ограничивается требованиями к памяти и пропускной способности, связанными со статическими весами и динамическим кэшем ключей-значений. SVD-компрессия предлагает аппаратно-ориентированное решение для снижения этих затрат. Однако существующие методы страдают от двух ключевых недостатков: одни являются субоптимальными по ошибке реконструкции, а другие теоретически оптимальны, но практически неэффективны. В данной статье мы предлагаем Swift-SVD — активационно-чувствительную замкнутую框架у компрессии, которая одновременно гарантирует теоретический оптимум, практическую эффективность и численную устойчивость. Swift-SVD инкрементально агрегирует ковариацию выходных активаций для батча входных данных и выполняет одно разложение по собственным значениям после агрегации, что обеспечивает бестренировочное, быстрое и оптимальное послойное низкоранговое приближение. Мы используем эффективный ранг для анализа локальной послойной сжимаемости и разрабатываем стратегию динамического распределения рангов, которая совместно учитывает локальные потери реконструкции и сквозную важность слоев. Многочисленные эксперименты на шести LLM и восьми наборах данных демонстрируют, что Swift-SVD превосходит современные базовые методы, достигая оптимальной точности компрессии при ускорении сквозного времени компрессии в 3–70 раз. Наш код будет опубликован после принятия статьи.

English

The deployment of Large Language Models is constrained by the memory and bandwidth demands of static weights and dynamic Key-Value cache. SVD-based compression provides a hardware-friendly solution to reduce these costs. However, existing methods suffer from two key limitations: some are suboptimal in reconstruction error, while others are theoretically optimal but practically inefficient. In this paper, we propose Swift-SVD, an activation-aware, closed-form compression framework that simultaneously guarantees theoretical optimum, practical efficiency and numerical stability. Swift-SVD incrementally aggregates covariance of output activations given a batch of inputs and performs a single eigenvalue decomposition after aggregation, enabling training-free, fast, and optimal layer-wise low-rank approximation. We employ effective rank to analyze local layer-wise compressibility and design a dynamic rank allocation strategy that jointly accounts for local reconstruction loss and end-to-end layer importance. Extensive experiments across six LLMs and eight datasets demonstrate that Swift-SVD outperforms state-of-the-art baselines, achieving optimal compression accuracy while delivering 3-70X speedups in end-to-end compression time. Our code will be released upon acceptance.

Swift-SVD: Теоретическая оптимальность встречается с практической эффективностью в низкоранговом сжатии больших языковых моделей

Swift-SVD: Theoretical Optimality Meets Practical Efficiency in Low-Rank LLM Compression

Аннотация

Support