초기화가 분지를 결정한다: 극단적 LLM 양자화를 위한 효율적인 코드북 최적화
Initialisation Determines the Basin: Efficient Codebook Optimisation for Extreme LLM Quantization
April 9, 2026
저자: Ian W. Kennedy, Nafise Sadat Moosavi
cs.AI
초록
가산적 양자화는 O(1) 룩업 테이블 역양자화를 통해 극단적인 LLM 압축을 가능하게 하여 에지 배포에 매력적입니다. 그러나 2비트 정밀도에서는 광범위한 탐색과 미세 조정을 거쳐도 종종 치명적으로 실패합니다. 우리는 주요 병목 현상이 코드북 초기화에 있음을 보여줍니다. 탐욕적 순차 초기화는 빔 탐색과 PV-튜닝으로 극복하기 어려운 열악한 최적화 영역에 모델을 빠뜨리는 경우가 많습니다. 우리는 가중치 그룹과 코드북 용량 간의 관계를 특징짓는 표현 비율 ho = N/KM을 통해 이 현상을 분석하고, 헤시안 가중 마할라노비스 거리를 사용하는 출력 인식 EM 초기화 방법인 OA-EM을 제안합니다. 압축률, 탐색 예산, 세 가지 아키텍처(Llama 3.2 3B, Llama 3.1 8B, Qwen 2.5 3B)에 걸쳐 OA-EM은 PV-튜닝 후 일관적으로 더 나은 해법을 생성하며 품질-계산 경계를 지배합니다. 병목 현상의 심각도는 ho에 따라 확장되는데, 3bpp에서는 보통 수준이지만 2bpp에서는 극단적이며, 열악한 초기화는 perplexity를 수 orders of magnitude나 저하시킬 수 있습니다. 더 광범위하게, 우리의 결과는 초기화가 후속 탐색 및 미세 조정을 지배할 수 있는 압축 모델 공간에서 최적화 기하학의 중요성을 강조합니다.
English
Additive quantization enables extreme LLM compression with O(1) lookup-table dequantization, making it attractive for edge deployment. Yet at 2-bit precision, it often fails catastrophically, even with extensive search and finetuning. We show that the dominant bottleneck is codebook initialisation. Greedy sequential initialisation frequently places the model in poor optimisation regions that subsequent beam search and PV-tuning struggle to overcome. We analyse this behaviour through the representational ratio ho = N/KM, which characterises the relationship between weight groups and codebook capacity, and propose OA-EM, an output-aware EM initialisation method using Hessian-weighted Mahalanobis distance. Across compression rates, search budgets, and three architectures (Llama 3.2 3B, Llama 3.1 8B, Qwen 2.5 3B), OA-EM consistently produces better solutions after PV-tuning and dominates the quality-compute frontier. The severity of the bottleneck scales with ho: moderate at 3 bpp but extreme at 2 bpp, where poor initialisation can degrade perplexity by orders of magnitude. More broadly, our results highlight the importance of optimisation geometry in compressed model spaces, where initialisation can dominate subsequent search and fine-tuning.