Swift-SVD: 理論的最適性と実用的効率性を両立する低ランクLLM圧縮
Swift-SVD: Theoretical Optimality Meets Practical Efficiency in Low-Rank LLM Compression
April 2, 2026
著者: Ruoling Qi, Yirui Liu, Xuaner Wu, Xiangyu Wang, Ming Li, Chen Chen, Jian Chen, Yin Chen, Qizhen Weng
cs.AI
要旨
大規模言語モデルの展開は、静的ウェイトと動的Key-Valueキャッシュのメモリおよび帯域幅要求によって制約されている。SVDに基づく圧縮は、これらのコストを削減するハードウェアフレンドリーなソリューションを提供する。しかし、既存の手法には2つの主要な限界がある。いくつかは再構成誤差において最適ではなく、他のものは理論的には最適であるが実用的には非効率である。本論文では、理論的な最適性、実用的な効率性、数値的安定性を同時に保証する、活性化を考慮した閉形式の圧縮フレームワーク「Swift-SVD」を提案する。Swift-SVDは、入力バッチに対する出力活性化の共分散を増分的に集約し、集約後に単一の固有値分解を実行する。これにより、学習不要で高速、かつ最適なレイヤーワイズの低ランク近似を実現する。我々は有効ランクを用いてレイヤーワイズの局所的な圧縮性を分析し、局所的な再構成損失とエンドツーエンドのレイヤ重要度を共同で考慮した動的ランク割り当て戦略を設計する。6つのLLMと8つのデータセットを用いた広範な実験により、Swift-SVDが既存の最先端ベースラインを凌駕し、最適な圧縮精度を達成するとともに、エンドツーエンドの圧縮時間で3~70倍の高速化を実現することを示す。コードは採択次第公開予定である。
English
The deployment of Large Language Models is constrained by the memory and bandwidth demands of static weights and dynamic Key-Value cache. SVD-based compression provides a hardware-friendly solution to reduce these costs. However, existing methods suffer from two key limitations: some are suboptimal in reconstruction error, while others are theoretically optimal but practically inefficient. In this paper, we propose Swift-SVD, an activation-aware, closed-form compression framework that simultaneously guarantees theoretical optimum, practical efficiency and numerical stability. Swift-SVD incrementally aggregates covariance of output activations given a batch of inputs and performs a single eigenvalue decomposition after aggregation, enabling training-free, fast, and optimal layer-wise low-rank approximation. We employ effective rank to analyze local layer-wise compressibility and design a dynamic rank allocation strategy that jointly accounts for local reconstruction loss and end-to-end layer importance. Extensive experiments across six LLMs and eight datasets demonstrate that Swift-SVD outperforms state-of-the-art baselines, achieving optimal compression accuracy while delivering 3-70X speedups in end-to-end compression time. Our code will be released upon acceptance.