BiLLM: Llevando al límite la cuantización post-entrenamiento para modelos de lenguaje grandes
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs
February 6, 2024
Autores: Wei Huang, Yangdong Liu, Haotong Qin, Ying Li, Shiming Zhang, Xianglong Liu, Michele Magno, Xiaojuan Qi
cs.AI
Resumen
Los modelos de lenguaje preentrenados de gran escala (LLMs) exhiben capacidades excepcionales de procesamiento general del lenguaje, pero conllevan demandas significativas de memoria y recursos computacionales. Como una potente tecnología de compresión, la binarización puede reducir extremadamente los pesos del modelo a tan solo 1 bit, disminuyendo los costosos requisitos de computación y memoria. Sin embargo, las técnicas de cuantificación existentes no logran mantener el rendimiento de los LLMs bajo anchos de bits ultra bajos. En respuesta a este desafío, presentamos BiLLM, un esquema innovador de cuantificación post-entrenamiento de 1 bit diseñado específicamente para LLMs preentrenados. Basándose en la distribución de pesos de los LLMs, BiLLM primero identifica y selecciona estructuralmente los pesos más relevantes, y minimiza la pérdida de compresión mediante una estrategia efectiva de aproximación residual binaria. Además, considerando la distribución en forma de campana de los pesos no relevantes, proponemos una búsqueda de división óptima para agruparlos y binarizarlos con precisión. BiLLM logra por primera vez una inferencia de alta precisión (por ejemplo, 8.41 de perplejidad en LLaMA2-70B) con pesos de solo 1.08 bits en diversas familias de LLMs y métricas de evaluación, superando significativamente a los métodos de cuantificación SOTA para LLMs. Además, BiLLM permite el proceso de binarización de un LLM con 7 mil millones de pesos en menos de 0.5 horas en una sola GPU, demostrando una eficiencia temporal satisfactoria.
English
Pretrained large language models (LLMs) exhibit exceptional general language
processing capabilities but come with significant demands on memory and
computational resources. As a powerful compression technology, binarization can
extremely reduce model weights to a mere 1 bit, lowering the expensive
computation and memory requirements. However, existing quantization techniques
fall short of maintaining LLM performance under ultra-low bit-widths. In
response to this challenge, we present BiLLM, a groundbreaking 1-bit
post-training quantization scheme tailored for pretrained LLMs. Based on the
weight distribution of LLMs, BiLLM first identifies and structurally selects
salient weights, and minimizes the compression loss through an effective binary
residual approximation strategy. Moreover, considering the bell-shaped
distribution of the non-salient weights, we propose an optimal splitting search
to group and binarize them accurately. BiLLM achieving for the first time
high-accuracy inference (e.g. 8.41 perplexity on LLaMA2-70B) with only 1.08-bit
weights across various LLMs families and evaluation metrics, outperforms SOTA
quantization methods of LLM by significant margins. Moreover, BiLLM enables the
binarization process of the LLM with 7 billion weights within 0.5 hours on a
single GPU, demonstrating satisfactory time efficiency.