L'Inizializzazione Determina il Bacino: Ottimizzazione Efficiente del Codebook per la Quantizzazione Estrema di LLM

Abstract

La quantizzazione additiva consente una compressione estrema dei LLM con una dequantizzazione O(1) tramite lookup-table, rendendola interessante per il deployment su dispositivi edge. Tuttavia, con una precisione a 2 bit, fallisce spesso in modo catastrofico, anche con ricerche estese e finetuning. Dimostriamo che il collo di bottiglia principale è l'inizializzazione del codebook. Un'inizializzazione sequenziale greedy colloca frequentemente il modello in regioni di ottimizzazione scadenti, che le successive ricerche beam search e PV-tuning faticano a superare. Analizziamo questo comportamento attraverso il rapporto rappresentazionale ho = N/KM, che caratterizza la relazione tra gruppi di pesi e capacità del codebook, e proponiamo OA-EM, un metodo di inizializzazione EM output-aware che utilizza la distanza di Mahalanobis ponderata per l'Hessiano. Attraverso diversi tassi di compressione, budget di ricerca e tre architetture (Llama 3.2 3B, Llama 3.1 8B, Qwen 2.5 3B), OA-EM produce costantemente soluzioni migliori dopo il PV-tuning e domina la frontiera qualità-calcolo. La gravità del collo di bottiglia scala con ho: moderata a 3 bpp ma estrema a 2 bpp, dove una scarsa inizializzazione può degradare la perplexità di ordini di grandezza. Più in generale, i nostri risultati evidenziano l'importanza della geometria dell'ottimizzazione negli spazi dei modelli compressi, dove l'inizializzazione può dominare la successiva ricerca e il fine-tuning.

English

Additive quantization enables extreme LLM compression with O(1) lookup-table dequantization, making it attractive for edge deployment. Yet at 2-bit precision, it often fails catastrophically, even with extensive search and finetuning. We show that the dominant bottleneck is codebook initialisation. Greedy sequential initialisation frequently places the model in poor optimisation regions that subsequent beam search and PV-tuning struggle to overcome. We analyse this behaviour through the representational ratio ho = N/KM, which characterises the relationship between weight groups and codebook capacity, and propose OA-EM, an output-aware EM initialisation method using Hessian-weighted Mahalanobis distance. Across compression rates, search budgets, and three architectures (Llama 3.2 3B, Llama 3.1 8B, Qwen 2.5 3B), OA-EM consistently produces better solutions after PV-tuning and dominates the quality-compute frontier. The severity of the bottleneck scales with ho: moderate at 3 bpp but extreme at 2 bpp, where poor initialisation can degrade perplexity by orders of magnitude. More broadly, our results highlight the importance of optimisation geometry in compressed model spaces, where initialisation can dominate subsequent search and fine-tuning.

L'Inizializzazione Determina il Bacino: Ottimizzazione Efficiente del Codebook per la Quantizzazione Estrema di LLM

Initialisation Determines the Basin: Efficient Codebook Optimisation for Extreme LLM Quantization

Abstract

Support