Swift-SVD: A Otimalidade Teórica Encontra a Eficiência Prática na Compressão de LLMs de Baixo Posto

Resumo

A implantação de Modelos de Língua de Grande Porte é limitada pelas exigências de memória e largura de banda dos pesos estáticos e da cache dinâmica de Chave-Valor. A compressão baseada em SVD oferece uma solução amigável ao hardware para reduzir estes custos. No entanto, os métodos existentes sofrem de duas limitações principais: alguns são subóptimos em termos de erro de reconstrução, enquanto outros são teoricamente ótimos mas praticamente ineficientes. Neste artigo, propomos o Swift-SVD, um quadro de compressão de forma fechada e consciente da ativação, que garante simultaneamente o ótimo teórico, a eficiência prática e a estabilidade numérica. O Swift-SVD agrega incrementalmente a covariância das ativações de saída para um lote de entradas e executa uma única decomposição em autovalores após a agregação, permitindo uma aproximação de baixa posto a nível da camada, ótima, rápida e sem necessidade de treino. Empregamos o posto efetivo para analisar a compressibilidade local a nível de camada e concebemos uma estratégia dinâmica de alocação de posto que considera conjuntamente a perda de reconstrução local e a importância da camada de ponta-a-ponta. Experiências extensivas em seis LLMs e oito conjuntos de dados demonstram que o Swift-SVD supera as linhas de base state-of-the-art, alcançando uma precisão de compressão ótima enquanto proporciona acelerações de 3 a 70 vezes no tempo de compressão de ponta-a-ponta. O nosso código será divulgado após aceitação.

English

The deployment of Large Language Models is constrained by the memory and bandwidth demands of static weights and dynamic Key-Value cache. SVD-based compression provides a hardware-friendly solution to reduce these costs. However, existing methods suffer from two key limitations: some are suboptimal in reconstruction error, while others are theoretically optimal but practically inefficient. In this paper, we propose Swift-SVD, an activation-aware, closed-form compression framework that simultaneously guarantees theoretical optimum, practical efficiency and numerical stability. Swift-SVD incrementally aggregates covariance of output activations given a batch of inputs and performs a single eigenvalue decomposition after aggregation, enabling training-free, fast, and optimal layer-wise low-rank approximation. We employ effective rank to analyze local layer-wise compressibility and design a dynamic rank allocation strategy that jointly accounts for local reconstruction loss and end-to-end layer importance. Extensive experiments across six LLMs and eight datasets demonstrate that Swift-SVD outperforms state-of-the-art baselines, achieving optimal compression accuracy while delivering 3-70X speedups in end-to-end compression time. Our code will be released upon acceptance.

Swift-SVD: A Otimalidade Teórica Encontra a Eficiência Prática na Compressão de LLMs de Baixo Posto

Swift-SVD: Theoretical Optimality Meets Practical Efficiency in Low-Rank LLM Compression

Resumo

Support