Инициализация определяет бассейн: эффективная оптимизация кодбука для экстремального квантования больших языковых моделей

Аннотация

Аддитивное квантование обеспечивает экстремальное сжатие больших языковых моделей (LLM) с O(1)-деквантованием на основе таблиц поиска, что делает его привлекательным для развертывания на периферийных устройствах. Однако при 2-битной точности оно часто дает катастрофический сбой, даже при обширном поиске и тонкой настройке. Мы показываем, что основным узким местом является инициализация кодбуков. Жадная последовательная инициализация часто помещает модель в области плохой оптимизации, которые последующий поиск по лучу и PV-настройка с трудом преодолевают. Мы анализируем это поведение через коэффициент репрезентативности ho = N/KM, который характеризует взаимосвязь между группами весов и емкостью кодбука, и предлагаем OA-EM — метод выходо-ориентированной EM-инициализации, использующий расстояние Махаланобиса, взвешенное на основе гессиана. При различных степенях сжатия, бюджетах на поиск и трех архитектурах (Llama 3.2 3B, Llama 3.1 8B, Qwen 2.5 3B) OA-EM стабильно дает лучшие решения после PV-настройки и доминирует на границе качество-вычисления. Серьезность узкого места масштабируется с ho: умеренная при 3 битах на параметр, но экстремальная при 2 битах на параметр, где плохая инициализация может ухудшить перплексию на порядки величин. В более широком смысле наши результаты подчеркивают важность геометрии оптимизации в сжатых пространствах моделей, где инициализация может доминировать над последующим поиском и тонкой настройкой.

English

Additive quantization enables extreme LLM compression with O(1) lookup-table dequantization, making it attractive for edge deployment. Yet at 2-bit precision, it often fails catastrophically, even with extensive search and finetuning. We show that the dominant bottleneck is codebook initialisation. Greedy sequential initialisation frequently places the model in poor optimisation regions that subsequent beam search and PV-tuning struggle to overcome. We analyse this behaviour through the representational ratio ho = N/KM, which characterises the relationship between weight groups and codebook capacity, and propose OA-EM, an output-aware EM initialisation method using Hessian-weighted Mahalanobis distance. Across compression rates, search budgets, and three architectures (Llama 3.2 3B, Llama 3.1 8B, Qwen 2.5 3B), OA-EM consistently produces better solutions after PV-tuning and dominates the quality-compute frontier. The severity of the bottleneck scales with ho: moderate at 3 bpp but extreme at 2 bpp, where poor initialisation can degrade perplexity by orders of magnitude. More broadly, our results highlight the importance of optimisation geometry in compressed model spaces, where initialisation can dominate subsequent search and fine-tuning.

Инициализация определяет бассейн: эффективная оптимизация кодбука для экстремального квантования больших языковых моделей

Initialisation Determines the Basin: Efficient Codebook Optimisation for Extreme LLM Quantization

Аннотация

Support