A Inicialização Determina a Bacia: Otimização Eficiente de Codebook para Quantização Extrema de LLMs

Resumo

A quantização aditiva permite a compressão extrema de LLMs com desquantização O(1) por tabela de consulta, tornando-a atrativa para implantação em dispositivos de borda. No entanto, com precisão de 2 bits, ela frequentemente falha catastróficamente, mesmo com busca extensiva e ajuste fino. Demonstramos que o principal gargalo é a inicialização do livro de códigos. A inicialização sequencial gananciosa frequentemente coloca o modelo em regiões de otimização pobres, as quais a busca por feixe e o PV-tuning subsequentes têm dificuldade em superar. Analisamos este comportamento através da razão representacional ho = N/KM, que caracteriza a relação entre grupos de pesos e a capacidade do livro de códigos, e propomos o OA-EM, um método de inicialização EM consciente da saída que utiliza a distância de Mahalanobis ponderada pela Hessiana. Através de taxas de compressão, orçamentos de busca e três arquiteturas (Llama 3.2 3B, Llama 3.1 8B, Qwen 2.5 3B), o OA-EM produz consistentemente soluções melhores após o PV-tuning e domina a fronteira qualidade-computação. A severidade do gargalo escala com ho: moderada a 3 bpp, mas extrema a 2 bpp, onde uma má inicialização pode degradar a perplexidade em ordens de magnitude. De forma mais ampla, nossos resultados destacam a importância da geometria de otimização em espaços de modelos comprimidos, onde a inicialização pode dominar a busca e o ajuste fino subsequentes.

English

Additive quantization enables extreme LLM compression with O(1) lookup-table dequantization, making it attractive for edge deployment. Yet at 2-bit precision, it often fails catastrophically, even with extensive search and finetuning. We show that the dominant bottleneck is codebook initialisation. Greedy sequential initialisation frequently places the model in poor optimisation regions that subsequent beam search and PV-tuning struggle to overcome. We analyse this behaviour through the representational ratio ho = N/KM, which characterises the relationship between weight groups and codebook capacity, and propose OA-EM, an output-aware EM initialisation method using Hessian-weighted Mahalanobis distance. Across compression rates, search budgets, and three architectures (Llama 3.2 3B, Llama 3.1 8B, Qwen 2.5 3B), OA-EM consistently produces better solutions after PV-tuning and dominates the quality-compute frontier. The severity of the bottleneck scales with ho: moderate at 3 bpp but extreme at 2 bpp, where poor initialisation can degrade perplexity by orders of magnitude. More broadly, our results highlight the importance of optimisation geometry in compressed model spaces, where initialisation can dominate subsequent search and fine-tuning.

A Inicialização Determina a Bacia: Otimização Eficiente de Codebook para Quantização Extrema de LLMs

Initialisation Determines the Basin: Efficient Codebook Optimisation for Extreme LLM Quantization

Resumo

Support