ChatPaper.aiChatPaper

ROCKET: 효율적인 모델 압축을 위한 보정 기반 배낭 문제 강화 조기 종료를 통한 신속 최적화

ROCKET: Rapid Optimization via Calibration-guided Knapsack Enhanced Truncation for Efficient Model Compression

February 11, 2026
저자: Ammar Ali, Baher Mohammad, Denis Makhov, Dmitriy Shopkhoev, Magauiya Zhussip, Stamatios Lefkimmiatis
cs.AI

초록

우리는 인수분해, 구조적 희소화 및 동적 압축 기준선들과 비교하여 최첨단 성능을 달성하는 학습이 필요 없는 모델 압축 방법인 ROCKET을 제안한다. 전역 압축 예산 하에서 운영되는 ROCKET은 두 가지 핵심 혁신으로 구성된다. 첫째, 이 방법은 계층별 압축 할당을 다중 선택 배낭 문제로 공식화하여 목표 모델 크기를 준수하면서 전체 재구성 오류를 최소화하기 위해 각 계층에 대한 최적의 압축 수준을 선택한다. 둘째, 이 방법은 사전 학습에서 영감을 받은 단일 단계 희소 행렬 인수분해를 도입한다: 소량의 캘리브레이션 세트만 사용하여 활성화-가중치 민감도에 기반하여 가중치 계수를 희소화한 다음, 반복적 최적화, 희소 코딩 또는 역전파를 완전히 우회하는 최소 자승법을 통해 닫힌 형태로 사전을 업데이트한다. ROCKET은 20-50% 압축률에서 다양한 모델 아키텍처에 걸쳐 기존 압축 접근법들을 지속적으로 능가한다. 특히, 미세 조정 없이 30% 압축에서 원본 모델 성능의 90% 이상을 유지한다. 더욱이, 가벼운 미세 조정 단계를 적용할 경우 성능 회복이 크게 향상된다: 예를 들어, Qwen3-14B를 8B 매개변수 모델로 압축하고 단 3천만 토큰으로 치유하면 원본 Qwen3-8B와 거의 동등한 성능을 보인다. ROCKET의 코드는 github.com/mts-ai/ROCKET/tree/main에서 확인할 수 있다.
English
We present ROCKET, a training-free model compression method that achieves state-of-the-art performance in comparison with factorization, structured-sparsification and dynamic compression baselines. Operating under a global compression budget, ROCKET comprises two key innovations: First, it formulates layer-wise compression allocation as a multi-choice knapsack problem, selecting the optimal compression level for each layer to minimize total reconstruction error while adhering to a target model size. Second, it introduces a single-step sparse matrix factorization inspired by dictionary learning: using only a small calibration set, it sparsifies weight coefficients based on activation-weights sensitivity and then updates the dictionary in closed form via least squares bypassing iterative optimization, sparse coding, or backpropagation entirely. ROCKET consistently outperforms existing compression approaches across different model architectures at 20-50\% compression rates. Notably, it retains over 90\% of the original model's performance at 30\% compression without any fine-tuning. Moreover, when applying a light fine-tuning phase, recovery is substantially enhanced: for instance, compressing Qwen3-14B to an 8B-parameter model and healing it with just 30 million tokens yields performance nearly on par with the original Qwen3-8B. The code for ROCKET is at github.com/mts-ai/ROCKET/tree/main.
PDF152February 13, 2026