Cuantización de Modelos de Lenguaje de Gran Escala para la Generación de Código: Una Replicación Diferenciada
Quantizing Large Language Models for Code Generation: A Differentiated Replication
March 10, 2025
Autores: Alessandro Giagnorio, Antonio Mastropaolo, Saima Afrin, Massimiliano Di Penta, Gabriele Bavota
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado una capacidad impresionante en la generación de código y, específicamente, para implementar automáticamente requisitos descritos en lenguaje natural. La efectividad de los LLMs generalmente aumenta con su tamaño: cuanto mayor es el número de parámetros entrenables del LLM, mejor es su capacidad para implementar código. Sin embargo, cuando se trata de desplegar generadores de código basados en LLMs, los modelos más grandes plantean desafíos significativos relacionados con su huella de memoria (y, en consecuencia, de carbono). Un trabajo previo de Wei et al. propuso aprovechar técnicas de cuantización para reducir la huella de memoria de los generadores de código basados en LLMs sin degradar sustancialmente su efectividad. En resumen, estudiaron LLMs con hasta 16 mil millones de parámetros, cuantizando su precisión de punto flotante de 32 bits a enteros de 8 bits, y mostraron su impacto limitado en el rendimiento de la generación de código. Dado el rápido ritmo al que evolucionan las capacidades de los LLMs y las técnicas de cuantización, en este trabajo presentamos una replicación diferenciada del trabajo de Wei et al. en la que consideramos (i) por un lado, LLMs más recientes y de mayor tamaño relacionados con código, de hasta 34 mil millones de parámetros; (ii) los últimos avances en técnicas de cuantización de modelos, que permiten llevar la compresión al nivel extremo de 2 bits por parámetro del modelo; y (iii) diferentes tipos de conjuntos de datos de calibración para guiar el proceso de cuantización, incluyendo aquellos específicos para código. Nuestra evaluación empírica revela que la nueva frontera para la cuantización de LLMs es la precisión de 4 bits, lo que resulta en una reducción promedio de la huella de memoria del 70% en comparación con el modelo original, sin observar una disminución significativa en el rendimiento. Además, cuando la cuantización se vuelve aún más extrema (3 y 2 bits), un conjunto de datos de calibración específico para código ayuda a limitar la pérdida de rendimiento.
English
Large Language Models (LLMs) have shown an impressive capability in code
generation and, specifically, to automatically implement requirements described
in natural language. The LLM effectiveness generally increases with its size:
The higher the number of LLM's trainable parameters the better its ability to
implement code. However, when it comes to deploying LLM-based code generators,
larger LLMs pose significant challenges related to their memory (and,
consequently, carbon) footprint. A previous work by Wei et al. proposed to
leverage quantization techniques to reduce the memory footprint of LLM-based
code generators without substantially degrading their effectiveness. In short,
they studied LLMs featuring up to 16B parameters, quantizing their precision
from floating point 32 bits down to int 8 bits and showing their limited impact
on code generation performance. Given the fast pace at which LLM capabilities
and quantization techniques are evolving, in this work we present a
differentiated replication of the work by Wei et al. in which we consider (i)
on the one side, more recent and larger code-related LLMs, of up to 34B
parameters; (ii) the latest advancements in model quantization techniques,
which allow pushing the compression to the extreme quantization level of 2 bits
per model parameter and; (iii) different types of calibration datasets to guide
the quantization process, including code-specific ones. Our empirical
evaluation reveals that the new frontier for LLM quantization is 4-bit
precision, resulting in an average memory footprint reduction of 70% compared
to the original model without observing any significant decrease in
performance. Additionally, when the quantization becomes even more extreme (3
and 2 bits), a code-specific calibration dataset helps to limit the loss of
performance.Summary
AI-Generated Summary