La Inicialización Determina la Cuenca: Optimización Eficiente de Codebooks para la Cuantización Extrema de Modelos de Lenguaje Grandes
Initialisation Determines the Basin: Efficient Codebook Optimisation for Extreme LLM Quantization
April 9, 2026
Autores: Ian W. Kennedy, Nafise Sadat Moosavi
cs.AI
Resumen
La cuantización aditiva permite una compresión extrema de LLM con una descuantización O(1) mediante tablas de búsqueda, lo que la hace atractiva para su despliegue en dispositivos de edge. Sin embargo, con una precisión de 2 bits, a menudo falla catastróficamente, incluso con búsquedas exhaustivas y ajuste fino. Demostramos que el cuello de botella dominante es la inicialización del libro de códigos. La inicialización secuencial codiciosa sitúa frecuentemente al modelo en regiones de optimización deficientes que la búsqueda por haz (beam search) y el PV-tuning posterior tienen dificultades para superar. Analizamos este comportamiento a través del ratio de representación ho = N/KM, que caracteriza la relación entre los grupos de pesos y la capacidad del libro de códigos, y proponemos OA-EM, un método de inicialización EM consciente de la salida (output-aware) que utiliza la distancia de Mahalanobis ponderada por la Hessiana. A través de diferentes tasas de compresión, presupuestos de búsqueda y tres arquitecturas (Llama 3.2 3B, Llama 3.1 8B, Qwen 2.5 3B), OA-EM produce consistentemente mejores soluciones después del PV-tuning y domina la frontera calidad-cómputo. La severidad del cuello de botella escala con ho: es moderada a 3 bpp pero extrema a 2 bpp, donde una mala inicialización puede degradar la perplejidad en órdenes de magnitud. En términos más generales, nuestros resultados subrayan la importancia de la geometría de optimización en los espacios de modelos comprimidos, donde la inicialización puede dominar a la búsqueda y el ajuste fino posteriores.
English
Additive quantization enables extreme LLM compression with O(1) lookup-table dequantization, making it attractive for edge deployment. Yet at 2-bit precision, it often fails catastrophically, even with extensive search and finetuning. We show that the dominant bottleneck is codebook initialisation. Greedy sequential initialisation frequently places the model in poor optimisation regions that subsequent beam search and PV-tuning struggle to overcome. We analyse this behaviour through the representational ratio ho = N/KM, which characterises the relationship between weight groups and codebook capacity, and propose OA-EM, an output-aware EM initialisation method using Hessian-weighted Mahalanobis distance. Across compression rates, search budgets, and three architectures (Llama 3.2 3B, Llama 3.1 8B, Qwen 2.5 3B), OA-EM consistently produces better solutions after PV-tuning and dominates the quality-compute frontier. The severity of the bottleneck scales with ho: moderate at 3 bpp but extreme at 2 bpp, where poor initialisation can degrade perplexity by orders of magnitude. More broadly, our results highlight the importance of optimisation geometry in compressed model spaces, where initialisation can dominate subsequent search and fine-tuning.