Atom: Niedrigbit-Quantisierung für effizientes und präzises LLM-Serving
Atom: Low-bit Quantization for Efficient and Accurate LLM Serving
October 29, 2023
papers.authors: Yilong Zhao, Chien-Yu Lin, Kan Zhu, Zihao Ye, Lequn Chen, Size Zheng, Luis Ceze, Arvind Krishnamurthy, Tianqi Chen, Baris Kasikci
cs.AI
papers.abstract
Die steigende Nachfrage nach Large Language Models (LLMs) in Anwendungen wie Inhaltsgenerierung, intelligenten Chatbots und Sentiment-Analyse stellt erhebliche Herausforderungen für LLM-Dienstanbieter dar. Um GPU-Ressourcen effizient zu nutzen und den Durchsatz zu steigern, hat sich das Bündeln mehrerer Anfragen als ein beliebtes Paradigma etabliert; um das Bündeln weiter zu beschleunigen, reduzieren LLM-Quantisierungstechniken den Speicherverbrauch und erhöhen die Rechenkapazität. Allerdings können gängige Quantisierungsschemata (z. B. 8-Bit-Gewichts-Aktivierungs-Quantisierung) die Fähigkeiten moderner GPUs, wie 4-Bit-Ganzzahl-Operatoren, nicht vollständig ausschöpfen, was zu suboptimaler Leistung führt.
Um den Durchsatz von LLMs bei der Bereitstellung zu maximieren, stellen wir Atom vor, eine Methode zur niedrigbitigen Quantisierung, die hohe Durchsatzsteigerungen mit vernachlässigbarem Genauigkeitsverlust erreicht. Atom steigert den Bereitstellungsdurchsatz erheblich durch die Verwendung von niedrigbitigen Operatoren und reduziert den Speicherverbrauch deutlich durch niedrigbitige Quantisierung. Es erreicht eine hohe Genauigkeit durch einen neuartigen gemischten Präzisions- und feinkörnigen Quantisierungsprozess. Wir evaluieren Atom in 4-Bit-Gewichts-Aktivierungs-Quantisierungs-Setups im Kontext der Bereitstellung. Atom verbessert den End-to-End-Durchsatz um bis zu 7,73-mal im Vergleich zu FP16 und um 2,53-mal im Vergleich zu INT8-Quantisierung, während das gleiche Latenzziel beibehalten wird.
English
The growing demand for Large Language Models (LLMs) in applications such as
content generation, intelligent chatbots, and sentiment analysis poses
considerable challenges for LLM service providers. To efficiently use GPU
resources and boost throughput, batching multiple requests has emerged as a
popular paradigm; to further speed up batching, LLM quantization techniques
reduce memory consumption and increase computing capacity. However, prevalent
quantization schemes (e.g., 8-bit weight-activation quantization) cannot fully
leverage the capabilities of modern GPUs, such as 4-bit integer operators,
resulting in sub-optimal performance.
To maximize LLMs' serving throughput, we introduce Atom, a low-bit
quantization method that achieves high throughput improvements with negligible
accuracy loss. Atom significantly boosts serving throughput by using low-bit
operators and considerably reduces memory consumption via low-bit quantization.
It attains high accuracy by applying a novel mixed-precision and fine-grained
quantization process. We evaluate Atom on 4-bit weight-activation quantization
setups in the serving context. Atom improves end-to-end throughput by up to
7.73times compared to the FP16 and by 2.53times compared to INT8
quantization, while maintaining the same latency target.