ROCKET: 効率的なモデル圧縮のための校正誘導型ナップサック強化刈り込みによる高速最適化
ROCKET: Rapid Optimization via Calibration-guided Knapsack Enhanced Truncation for Efficient Model Compression
February 11, 2026
著者: Ammar Ali, Baher Mohammad, Denis Makhov, Dmitriy Shopkhoev, Magauiya Zhussip, Stamatios Lefkimmiatis
cs.AI
要旨
本論文では、ファクタリゼーション、構造化スパース化、動的圧縮のベースラインと比較して、最先端の性能を達成するトレーニング不要のモデル圧縮手法「ROCKET」を提案する。グローバルな圧縮バジェットの下で動作するROCKETは、2つの重要な革新を包含する。第一に、層ごとの圧縮割り当てを多選択ナップサック問題として定式化し、目標モデルサイズを遵守しながら全体の再構成誤差を最小化するために、各層に対して最適な圧縮レベルを選択する。第二に、辞書学習に着想を得た単一段階のスパース行列分解を導入する。少量のキャリブレーションセットのみを使用し、活性化-重みの感度に基づいて重み係数をスパース化した後、反復最適化、スパースコーディング、または誤差逆伝播を完全に迂回して、最小二乗法による閉形式で辞書を更新する。ROCKETは、20〜50%の圧縮率において、様々なモデルアーキテクチャで既存の圧縮手法を一貫して凌駕する。特に、30%圧縮時において、ファインチューニングを一切行わずに元のモデル性能の90%以上を維持する。さらに、軽微なファインチューニング段階を適用すると、回復が大幅に促進される。例えば、Qwen3-14Bを80億パラメータモデルに圧縮し、わずか3000万トークンで回復させると、元のQwen3-8Bとほぼ同等の性能が得られる。ROCKETのコードはgithub.com/mts-ai/ROCKET/tree/mainで公開されている。
English
We present ROCKET, a training-free model compression method that achieves state-of-the-art performance in comparison with factorization, structured-sparsification and dynamic compression baselines. Operating under a global compression budget, ROCKET comprises two key innovations: First, it formulates layer-wise compression allocation as a multi-choice knapsack problem, selecting the optimal compression level for each layer to minimize total reconstruction error while adhering to a target model size. Second, it introduces a single-step sparse matrix factorization inspired by dictionary learning: using only a small calibration set, it sparsifies weight coefficients based on activation-weights sensitivity and then updates the dictionary in closed form via least squares bypassing iterative optimization, sparse coding, or backpropagation entirely. ROCKET consistently outperforms existing compression approaches across different model architectures at 20-50\% compression rates. Notably, it retains over 90\% of the original model's performance at 30\% compression without any fine-tuning. Moreover, when applying a light fine-tuning phase, recovery is substantially enhanced: for instance, compressing Qwen3-14B to an 8B-parameter model and healing it with just 30 million tokens yields performance nearly on par with the original Qwen3-8B. The code for ROCKET is at github.com/mts-ai/ROCKET/tree/main.