ChatPaper.aiChatPaper

BiLLM: Llevando al límite la cuantización post-entrenamiento para modelos de lenguaje grandes

BiLLM: Pushing the Limit of Post-Training Quantization for LLMs

February 6, 2024
Autores: Wei Huang, Yangdong Liu, Haotong Qin, Ying Li, Shiming Zhang, Xianglong Liu, Michele Magno, Xiaojuan Qi
cs.AI

Resumen

Los modelos de lenguaje preentrenados de gran escala (LLMs) exhiben capacidades excepcionales de procesamiento general del lenguaje, pero conllevan demandas significativas de memoria y recursos computacionales. Como una potente tecnología de compresión, la binarización puede reducir extremadamente los pesos del modelo a tan solo 1 bit, disminuyendo los costosos requisitos de computación y memoria. Sin embargo, las técnicas de cuantificación existentes no logran mantener el rendimiento de los LLMs bajo anchos de bits ultra bajos. En respuesta a este desafío, presentamos BiLLM, un esquema innovador de cuantificación post-entrenamiento de 1 bit diseñado específicamente para LLMs preentrenados. Basándose en la distribución de pesos de los LLMs, BiLLM primero identifica y selecciona estructuralmente los pesos más relevantes, y minimiza la pérdida de compresión mediante una estrategia efectiva de aproximación residual binaria. Además, considerando la distribución en forma de campana de los pesos no relevantes, proponemos una búsqueda de división óptima para agruparlos y binarizarlos con precisión. BiLLM logra por primera vez una inferencia de alta precisión (por ejemplo, 8.41 de perplejidad en LLaMA2-70B) con pesos de solo 1.08 bits en diversas familias de LLMs y métricas de evaluación, superando significativamente a los métodos de cuantificación SOTA para LLMs. Además, BiLLM permite el proceso de binarización de un LLM con 7 mil millones de pesos en menos de 0.5 horas en una sola GPU, demostrando una eficiencia temporal satisfactoria.
English
Pretrained large language models (LLMs) exhibit exceptional general language processing capabilities but come with significant demands on memory and computational resources. As a powerful compression technology, binarization can extremely reduce model weights to a mere 1 bit, lowering the expensive computation and memory requirements. However, existing quantization techniques fall short of maintaining LLM performance under ultra-low bit-widths. In response to this challenge, we present BiLLM, a groundbreaking 1-bit post-training quantization scheme tailored for pretrained LLMs. Based on the weight distribution of LLMs, BiLLM first identifies and structurally selects salient weights, and minimizes the compression loss through an effective binary residual approximation strategy. Moreover, considering the bell-shaped distribution of the non-salient weights, we propose an optimal splitting search to group and binarize them accurately. BiLLM achieving for the first time high-accuracy inference (e.g. 8.41 perplexity on LLaMA2-70B) with only 1.08-bit weights across various LLMs families and evaluation metrics, outperforms SOTA quantization methods of LLM by significant margins. Moreover, BiLLM enables the binarization process of the LLM with 7 billion weights within 0.5 hours on a single GPU, demonstrating satisfactory time efficiency.
PDF513December 15, 2024