Квантование крупных языковых моделей для генерации кода: дифференцированная репликация
Quantizing Large Language Models for Code Generation: A Differentiated Replication
March 10, 2025
Авторы: Alessandro Giagnorio, Antonio Mastropaolo, Saima Afrin, Massimiliano Di Penta, Gabriele Bavota
cs.AI
Аннотация
Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в генерации кода, в частности, в автоматической реализации требований, описанных на естественном языке. Эффективность LLM, как правило, возрастает с увеличением их размера: чем больше обучаемых параметров у модели, тем лучше её способность генерировать код. Однако при развертывании LLM-генераторов кода более крупные модели создают значительные проблемы, связанные с их объемом памяти (и, как следствие, углеродным следом). В предыдущей работе Wei et al. предложили использовать методы квантования для уменьшения объема памяти LLM-генераторов кода без существенного снижения их эффективности. Вкратце, они исследовали LLM с количеством параметров до 16 миллиардов, квантуя их точность с 32-битных чисел с плавающей запятой до 8-битных целых чисел, и показали ограниченное влияние этого на производительность генерации кода. Учитывая быстрый темп развития возможностей LLM и методов квантования, в данной работе мы представляем дифференцированное воспроизведение исследования Wei et al., в котором мы рассматриваем (i) более современные и крупные LLM, связанные с кодом, с количеством параметров до 34 миллиардов; (ii) последние достижения в методах квантования моделей, которые позволяют довести сжатие до экстремального уровня квантования в 2 бита на параметр модели; и (iii) различные типы калибровочных наборов данных для управления процессом квантования, включая специализированные наборы для кода. Наше эмпирическое исследование показывает, что новая граница для квантования LLM — это 4-битная точность, что приводит к среднему сокращению объема памяти на 70% по сравнению с исходной моделью без заметного снижения производительности. Кроме того, при более экстремальном квантовании (3 и 2 бита) специализированный калибровочный набор данных для кода помогает ограничить потерю производительности.
English
Large Language Models (LLMs) have shown an impressive capability in code
generation and, specifically, to automatically implement requirements described
in natural language. The LLM effectiveness generally increases with its size:
The higher the number of LLM's trainable parameters the better its ability to
implement code. However, when it comes to deploying LLM-based code generators,
larger LLMs pose significant challenges related to their memory (and,
consequently, carbon) footprint. A previous work by Wei et al. proposed to
leverage quantization techniques to reduce the memory footprint of LLM-based
code generators without substantially degrading their effectiveness. In short,
they studied LLMs featuring up to 16B parameters, quantizing their precision
from floating point 32 bits down to int 8 bits and showing their limited impact
on code generation performance. Given the fast pace at which LLM capabilities
and quantization techniques are evolving, in this work we present a
differentiated replication of the work by Wei et al. in which we consider (i)
on the one side, more recent and larger code-related LLMs, of up to 34B
parameters; (ii) the latest advancements in model quantization techniques,
which allow pushing the compression to the extreme quantization level of 2 bits
per model parameter and; (iii) different types of calibration datasets to guide
the quantization process, including code-specific ones. Our empirical
evaluation reveals that the new frontier for LLM quantization is 4-bit
precision, resulting in an average memory footprint reduction of 70% compared
to the original model without observing any significant decrease in
performance. Additionally, when the quantization becomes even more extreme (3
and 2 bits), a code-specific calibration dataset helps to limit the loss of
performance.Summary
AI-Generated Summary