ChatPaper.aiChatPaper

Initialisierung bestimmt das Einzugsgebiet: Effiziente Codebuch-Optimierung für extreme LLM-Quantisierung

Initialisation Determines the Basin: Efficient Codebook Optimisation for Extreme LLM Quantization

April 9, 2026
Autoren: Ian W. Kennedy, Nafise Sadat Moosavi
cs.AI

Zusammenfassung

Additive Quantisierung ermöglicht extreme LLM-Kompression mit O(1)-Lookup-Table-Dequantisierung, was sie für Edge-Deployment attraktiv macht. Bei 2-Bit-Präzision versagt sie jedoch oft katastrophal, selbst bei umfangreicher Suche und Feinabstimmung. Wir zeigen, dass die dominierende Engstelle die Codebuch-Initialisierung ist. Gierige sequentielle Initialisierung bringt das Modell häufig in schlechte Optimierungsregionen, die nachfolgende Beam-Search und PV-Tuning nur schwer überwinden können. Wir analysieren dieses Verhalten anhand des Repräsentationsverhältnisses ho = N/KM, das die Beziehung zwischen Gewichtsgruppen und Codebuchkapazität charakterisiert, und schlagen OA-EM vor, eine output-aware EM-Initialisierungsmethode unter Verwendung der hessengewichteten Mahalanobis-Distanz. Über Kompressionsraten, Suchbudgets und drei Architekturen (Llama 3.2 3B, Llama 3.1 8B, Qwen 2.5 3B) hinweg erzeugt OA-EM konsistent bessere Lösungen nach dem PV-Tuning und dominiert die Qualitäts-Rechenleistungs-Grenze. Der Schweregrad der Engstelle skaliert mit ho: mäßig bei 3 bpp, aber extrem bei 2 bpp, wo eine schlechte Initialisierung die Perplexität um Größenordnungen verschlechtern kann. Im weiteren Sinne unterstreichen unsere Ergebnisse die Bedeutung der Optimierungsgeometrie in komprimierten Modellräumen, wo die Initialisierung die nachfolgende Suche und Feinabstimmung dominieren kann.
English
Additive quantization enables extreme LLM compression with O(1) lookup-table dequantization, making it attractive for edge deployment. Yet at 2-bit precision, it often fails catastrophically, even with extensive search and finetuning. We show that the dominant bottleneck is codebook initialisation. Greedy sequential initialisation frequently places the model in poor optimisation regions that subsequent beam search and PV-tuning struggle to overcome. We analyse this behaviour through the representational ratio ho = N/KM, which characterises the relationship between weight groups and codebook capacity, and propose OA-EM, an output-aware EM initialisation method using Hessian-weighted Mahalanobis distance. Across compression rates, search budgets, and three architectures (Llama 3.2 3B, Llama 3.1 8B, Qwen 2.5 3B), OA-EM consistently produces better solutions after PV-tuning and dominates the quality-compute frontier. The severity of the bottleneck scales with ho: moderate at 3 bpp but extreme at 2 bpp, where poor initialisation can degrade perplexity by orders of magnitude. More broadly, our results highlight the importance of optimisation geometry in compressed model spaces, where initialisation can dominate subsequent search and fine-tuning.
PDF12April 14, 2026