Swift-SVD: Optimalidad Teórica Encuentra Eficiencia Práctica en la Compresión de LLM de Bajo Rango

Resumen

La implementación de modelos de lenguaje a gran escala se ve limitada por las demandas de memoria y ancho de banda de los pesos estáticos y la caché dinámica de clave-valor. La compresión basada en SVD ofrece una solución compatible con el hardware para reducir estos costes. Sin embargo, los métodos existentes adolecen de dos limitaciones principales: algunos son subóptimos en cuanto a error de reconstrucción, mientras que otros son teóricamente óptimos pero prácticamente ineficientes. En este artículo, proponemos Swift-SVD, un marco de compresión de forma cerrada y consciente de la activación que garantiza simultáneamente el óptimo teórico, la eficiencia práctica y la estabilidad numérica. Swift-SVD agrega incrementalmente la covarianza de las activaciones de salida dado un lote de entradas y realiza una única descomposición en valores propios tras la agregación, permitiendo una aproximación de bajo rango óptima, rápida y sin necesidad de entrenamiento por capas. Empleamos el rango efectivo para analizar la compresibilidad local por capas y diseñamos una estrategia dinámica de asignación de rangos que considera conjuntamente la pérdida por reconstrucción local y la importancia de las capas extremo a extremo. Experimentos exhaustivos en seis LLM y ocho conjuntos de datos demuestran que Swift-SVD supera a los métodos de referencia más avanzados, logrando una precisión de compresión óptima mientras ofrece aceleraciones de 3 a 70 veces en el tiempo de compresión extremo a extremo. Nuestro código se publicará tras la aceptación.

English

The deployment of Large Language Models is constrained by the memory and bandwidth demands of static weights and dynamic Key-Value cache. SVD-based compression provides a hardware-friendly solution to reduce these costs. However, existing methods suffer from two key limitations: some are suboptimal in reconstruction error, while others are theoretically optimal but practically inefficient. In this paper, we propose Swift-SVD, an activation-aware, closed-form compression framework that simultaneously guarantees theoretical optimum, practical efficiency and numerical stability. Swift-SVD incrementally aggregates covariance of output activations given a batch of inputs and performs a single eigenvalue decomposition after aggregation, enabling training-free, fast, and optimal layer-wise low-rank approximation. We employ effective rank to analyze local layer-wise compressibility and design a dynamic rank allocation strategy that jointly accounts for local reconstruction loss and end-to-end layer importance. Extensive experiments across six LLMs and eight datasets demonstrate that Swift-SVD outperforms state-of-the-art baselines, achieving optimal compression accuracy while delivering 3-70X speedups in end-to-end compression time. Our code will be released upon acceptance.

Swift-SVD: Optimalidad Teórica Encuentra Eficiencia Práctica en la Compresión de LLM de Bajo Rango

Swift-SVD: Theoretical Optimality Meets Practical Efficiency in Low-Rank LLM Compression

Resumen

Support