Swift-SVD: Ottimalità Teorica e Efficienza Pratica nella Compressione LLM a Basso Rango

Abstract

L'implementazione dei Large Language Model è limitata dalle richieste di memoria e banda passante dei pesi statici e della cache dinamica Chiave-Valore. La compressione basata su SVD fornisce una soluzione hardware-friendly per ridurre questi costi. Tuttavia, i metodi esistenti presentano due limitazioni chiave: alcuni sono subottimali per l'errore di ricostruzione, mentre altri sono teoricamente ottimali ma praticamente inefficienti. In questo articolo, proponiamo Swift-SVD, un framework di compressione closed-form e activation-aware che garantisce simultaneamente l'ottimalità teorica, l'efficienza pratica e la stabilità numerica. Swift-SVD aggrega incrementalmente la covarianza delle attivazioni in output dato un batch di input ed esegue una singola decomposizione agli autovalori dopo l'aggregazione, consentendo un'approssimazione di basso rango layer-wise ottimale, rapida e senza necessità di training. Utilizziamo il rango effettivo per analizzare la comprimibilità locale layer-wise e progettiamo una strategia di allocazione dinamica del rango che considera congiuntamente la perdita di ricostruzione locale e l'importanza layer end-to-end. Esperimenti estesi su sei LLM e otto dataset dimostrano che Swift-SVD supera i baseline state-of-the-art, raggiungendo un'accuratezza di compressione ottimale e fornendo un'accelerazione di 3-70X nel tempo di compressione end-to-end. Il nostro codice verrà rilasciato al momento dell'accettazione.

English

The deployment of Large Language Models is constrained by the memory and bandwidth demands of static weights and dynamic Key-Value cache. SVD-based compression provides a hardware-friendly solution to reduce these costs. However, existing methods suffer from two key limitations: some are suboptimal in reconstruction error, while others are theoretically optimal but practically inefficient. In this paper, we propose Swift-SVD, an activation-aware, closed-form compression framework that simultaneously guarantees theoretical optimum, practical efficiency and numerical stability. Swift-SVD incrementally aggregates covariance of output activations given a batch of inputs and performs a single eigenvalue decomposition after aggregation, enabling training-free, fast, and optimal layer-wise low-rank approximation. We employ effective rank to analyze local layer-wise compressibility and design a dynamic rank allocation strategy that jointly accounts for local reconstruction loss and end-to-end layer importance. Extensive experiments across six LLMs and eight datasets demonstrate that Swift-SVD outperforms state-of-the-art baselines, achieving optimal compression accuracy while delivering 3-70X speedups in end-to-end compression time. Our code will be released upon acceptance.

Swift-SVD: Ottimalità Teorica e Efficienza Pratica nella Compressione LLM a Basso Rango

Swift-SVD: Theoretical Optimality Meets Practical Efficiency in Low-Rank LLM Compression

Abstract

Support