Atom : Quantification en basse précision pour un service de LLM efficace et précis
Atom: Low-bit Quantization for Efficient and Accurate LLM Serving
October 29, 2023
papers.authors: Yilong Zhao, Chien-Yu Lin, Kan Zhu, Zihao Ye, Lequn Chen, Size Zheng, Luis Ceze, Arvind Krishnamurthy, Tianqi Chen, Baris Kasikci
cs.AI
papers.abstract
La demande croissante pour les modèles de langage de grande taille (LLMs) dans des applications telles que la génération de contenu, les chatbots intelligents et l'analyse de sentiments pose des défis considérables pour les fournisseurs de services LLM. Pour utiliser efficacement les ressources GPU et augmenter le débit, le regroupement de plusieurs requêtes (batching) est devenu un paradigme populaire ; pour accélérer davantage ce regroupement, les techniques de quantification des LLMs réduisent la consommation de mémoire et augmentent la capacité de calcul. Cependant, les schémas de quantification courants (par exemple, la quantification poids-activation en 8 bits) ne permettent pas de tirer pleinement parti des capacités des GPU modernes, tels que les opérateurs entiers en 4 bits, ce qui entraîne des performances sous-optimales.
Pour maximiser le débit de service des LLMs, nous présentons Atom, une méthode de quantification à faible précision qui permet d'obtenir des améliorations significatives du débit avec une perte de précision négligeable. Atom augmente considérablement le débit de service en utilisant des opérateurs à faible précision et réduit notablement la consommation de mémoire grâce à une quantification à faible précision. Il atteint une haute précision en appliquant un processus novateur de quantification mixte et à granularité fine. Nous évaluons Atom dans des configurations de quantification poids-activation en 4 bits dans un contexte de service. Atom améliore le débit de bout en bout jusqu'à 7,73 fois par rapport au FP16 et 2,53 fois par rapport à la quantification INT8, tout en maintenant le même objectif de latence.
English
The growing demand for Large Language Models (LLMs) in applications such as
content generation, intelligent chatbots, and sentiment analysis poses
considerable challenges for LLM service providers. To efficiently use GPU
resources and boost throughput, batching multiple requests has emerged as a
popular paradigm; to further speed up batching, LLM quantization techniques
reduce memory consumption and increase computing capacity. However, prevalent
quantization schemes (e.g., 8-bit weight-activation quantization) cannot fully
leverage the capabilities of modern GPUs, such as 4-bit integer operators,
resulting in sub-optimal performance.
To maximize LLMs' serving throughput, we introduce Atom, a low-bit
quantization method that achieves high throughput improvements with negligible
accuracy loss. Atom significantly boosts serving throughput by using low-bit
operators and considerably reduces memory consumption via low-bit quantization.
It attains high accuracy by applying a novel mixed-precision and fine-grained
quantization process. We evaluate Atom on 4-bit weight-activation quantization
setups in the serving context. Atom improves end-to-end throughput by up to
7.73times compared to the FP16 and by 2.53times compared to INT8
quantization, while maintaining the same latency target.