COSPADI: 캘리브레이션 기반 희소 사전 학습을 통한 대형 언어 모델 압축
COSPADI: Compressing LLMs via Calibration-Guided Sparse Dictionary Learning
September 26, 2025
저자: Dmitriy Shopkhoev, Denis Makhov, Magauiya Zhussip, Ammar Ali, Stamatios Lefkimmiatis
cs.AI
초록
대규모 언어 모델(LLM)의 학습 후 압축은 주로 저랭크 가중치 근사에 의존하며, 이는 가중치 행렬의 각 열을 공유된 저차원 부분공간으로 표현합니다. 이는 계산적으로 효율적인 전략이지만, 부과된 구조적 제약이 경직되어 모델 정확도의 현저한 하락을 초래할 수 있습니다. 본 연구에서는 CoSpaDi(Compression via Sparse Dictionary Learning)라는 새로운 학습 없는 압축 프레임워크를 제안합니다. 이는 저랭크 분해를 더 유연한 구조적 희소 분해로 대체하며, 각 가중치 행렬을 밀집된 사전과 열 희소 계수 행렬로 표현합니다. 이 공식화는 원래 가중치 행렬의 서로 다른 열들이 적응적으로 선택된 사전 원자들에 의해 생성된 별개의 부분공간에서 근사되는 부분공간의 합집합 표현을 가능하게 하여, 단일 불변 기저보다 더 큰 표현력을 제공합니다. 특히, CoSpaDi는 작은 보정 데이터셋을 활용하여 압축된 투영 층의 출력 활성화가 원래 것과 밀접하게 일치하도록 분해를 최적화함으로써, 단순한 가중치 근사가 아닌 기능적 재구성 오류를 최소화합니다. 이 데이터 인식 전략은 합리적인 압축률 하에서 추가 미세 조정 없이도 더 나은 모델 충실도를 유지합니다. 또한, 결과적으로 얻은 구조적 희소성은 희소-밀집 행렬 곱셈을 효율적으로 수행할 수 있게 하며, 추가적인 메모리 및 지연 시간 이득을 위해 학습 후 양자화와도 호환됩니다. 우리는 CoSpaDi를 여러 Llama 및 Qwen 모델에 대해 층별 및 그룹별 설정에서 20-50%의 압축률로 평가하며, 정확도와 복잡성 측면에서 최신 데이터 인식 저랭크 방법들을 일관되게 능가함을 입증합니다. 우리의 결과는 구조적 희소 사전 학습이 효율적인 LLM 배포를 위한 기존의 저랭크 접근법에 대한 강력한 대안임을 입증합니다.
English
Post-training compression of large language models (LLMs) largely relies on
low-rank weight approximation, which represents each column of a weight matrix
in a shared low-dimensional subspace. While this is a computationally efficient
strategy, the imposed structural constraint is rigid and can lead to a
noticeable model accuracy drop. In this work, we propose CoSpaDi (Compression
via Sparse Dictionary Learning), a novel training-free compression framework
that replaces low-rank decomposition with a more flexible structured sparse
factorization in which each weight matrix is represented with a dense
dictionary and a column-sparse coefficient matrix. This formulation enables a
union-of-subspaces representation: different columns of the original weight
matrix are approximated in distinct subspaces spanned by adaptively selected
dictionary atoms, offering greater expressiveness than a single invariant
basis. Crucially, CoSpaDi leverages a small calibration dataset to optimize the
factorization such that the output activations of compressed projection layers
closely match those of the original ones, thereby minimizing functional
reconstruction error rather than mere weight approximation. This data-aware
strategy preserves better model fidelity without any fine-tuning under
reasonable compression ratios. Moreover, the resulting structured sparsity
allows efficient sparse-dense matrix multiplication and is compatible with
post-training quantization for further memory and latency gains. We evaluate
CoSpaDi across multiple Llama and Qwen models under per-layer and per-group
settings at 20-50\% compression ratios, demonstrating consistent superiority
over state-of-the-art data-aware low-rank methods both in accuracy and
perplexity. Our results establish structured sparse dictionary learning as a
powerful alternative to conventional low-rank approaches for efficient LLM
deployment.