L'initialisation détermine le bassin d'attraction : optimisation efficace du codebook pour la quantification extrême des grands modèles de langage

Résumé

La quantification additive permet une compression extrême des LLM grâce à une déquantification par table de consultation en O(1), ce qui la rend attractive pour le déploiement en périphérie. Cependant, avec une précision de 2 bits, elle échoue souvent de manière catastrophique, même avec une recherche et un ajustement fin poussés. Nous démontrons que le goulot d'étranglement dominant est l'initialisation du codebook. Une initialisation séquentielle gloutonne place fréquemment le modèle dans de mauvaises régions d'optimisation que les recherches par faisceau et le PV-tuning peinent à corriger. Nous analysons ce comportement via le ratio de représentation ho = N/KM, qui caractérise la relation entre les groupes de poids et la capacité du codebook, et proposons OA-EM, une méthode d'initialisation EM consciente de la sortie utilisant la distance de Mahalanobis pondérée par le Hessien. Pour tous les taux de compression, budgets de recherche et trois architectures (Llama 3.2 3B, Llama 3.1 8B, Qwen 2.5 3B), OA-EM produit systématiquement de meilleures solutions après PV-tuning et domine la frontière qualité-calcul. La sévérité du goulot d'étranglement augmente avec ho : modérée à 3 bpp mais extrême à 2 bpp, où une mauvaise initialisation peut dégrader la perplexité de plusieurs ordres de grandeur. Plus généralement, nos résultats soulignent l'importance de la géométrie de l'optimisation dans les espaces de modèles compressés, où l'initialisation peut dominer la recherche et l'ajustement fin ultérieurs.

English

Additive quantization enables extreme LLM compression with O(1) lookup-table dequantization, making it attractive for edge deployment. Yet at 2-bit precision, it often fails catastrophically, even with extensive search and finetuning. We show that the dominant bottleneck is codebook initialisation. Greedy sequential initialisation frequently places the model in poor optimisation regions that subsequent beam search and PV-tuning struggle to overcome. We analyse this behaviour through the representational ratio ho = N/KM, which characterises the relationship between weight groups and codebook capacity, and propose OA-EM, an output-aware EM initialisation method using Hessian-weighted Mahalanobis distance. Across compression rates, search budgets, and three architectures (Llama 3.2 3B, Llama 3.1 8B, Qwen 2.5 3B), OA-EM consistently produces better solutions after PV-tuning and dominates the quality-compute frontier. The severity of the bottleneck scales with ho: moderate at 3 bpp but extreme at 2 bpp, where poor initialisation can degrade perplexity by orders of magnitude. More broadly, our results highlight the importance of optimisation geometry in compressed model spaces, where initialisation can dominate subsequent search and fine-tuning.

L'initialisation détermine le bassin d'attraction : optimisation efficace du codebook pour la quantification extrême des grands modèles de langage

Initialisation Determines the Basin: Efficient Codebook Optimisation for Extreme LLM Quantization

Résumé

Support