ChatPaper.aiChatPaper

Atom : Quantification en basse précision pour un service de LLM efficace et précis

Atom: Low-bit Quantization for Efficient and Accurate LLM Serving

October 29, 2023
papers.authors: Yilong Zhao, Chien-Yu Lin, Kan Zhu, Zihao Ye, Lequn Chen, Size Zheng, Luis Ceze, Arvind Krishnamurthy, Tianqi Chen, Baris Kasikci
cs.AI

papers.abstract

La demande croissante pour les modèles de langage de grande taille (LLMs) dans des applications telles que la génération de contenu, les chatbots intelligents et l'analyse de sentiments pose des défis considérables pour les fournisseurs de services LLM. Pour utiliser efficacement les ressources GPU et augmenter le débit, le regroupement de plusieurs requêtes (batching) est devenu un paradigme populaire ; pour accélérer davantage ce regroupement, les techniques de quantification des LLMs réduisent la consommation de mémoire et augmentent la capacité de calcul. Cependant, les schémas de quantification courants (par exemple, la quantification poids-activation en 8 bits) ne permettent pas de tirer pleinement parti des capacités des GPU modernes, tels que les opérateurs entiers en 4 bits, ce qui entraîne des performances sous-optimales. Pour maximiser le débit de service des LLMs, nous présentons Atom, une méthode de quantification à faible précision qui permet d'obtenir des améliorations significatives du débit avec une perte de précision négligeable. Atom augmente considérablement le débit de service en utilisant des opérateurs à faible précision et réduit notablement la consommation de mémoire grâce à une quantification à faible précision. Il atteint une haute précision en appliquant un processus novateur de quantification mixte et à granularité fine. Nous évaluons Atom dans des configurations de quantification poids-activation en 4 bits dans un contexte de service. Atom améliore le débit de bout en bout jusqu'à 7,73 fois par rapport au FP16 et 2,53 fois par rapport à la quantification INT8, tout en maintenant le même objectif de latence.
English
The growing demand for Large Language Models (LLMs) in applications such as content generation, intelligent chatbots, and sentiment analysis poses considerable challenges for LLM service providers. To efficiently use GPU resources and boost throughput, batching multiple requests has emerged as a popular paradigm; to further speed up batching, LLM quantization techniques reduce memory consumption and increase computing capacity. However, prevalent quantization schemes (e.g., 8-bit weight-activation quantization) cannot fully leverage the capabilities of modern GPUs, such as 4-bit integer operators, resulting in sub-optimal performance. To maximize LLMs' serving throughput, we introduce Atom, a low-bit quantization method that achieves high throughput improvements with negligible accuracy loss. Atom significantly boosts serving throughput by using low-bit operators and considerably reduces memory consumption via low-bit quantization. It attains high accuracy by applying a novel mixed-precision and fine-grained quantization process. We evaluate Atom on 4-bit weight-activation quantization setups in the serving context. Atom improves end-to-end throughput by up to 7.73times compared to the FP16 and by 2.53times compared to INT8 quantization, while maintaining the same latency target.
PDF114December 15, 2024