Atom: Laagbit-kwantisering voor efficiënte en nauwkeurige LLM-dienstverlening
Atom: Low-bit Quantization for Efficient and Accurate LLM Serving
October 29, 2023
Auteurs: Yilong Zhao, Chien-Yu Lin, Kan Zhu, Zihao Ye, Lequn Chen, Size Zheng, Luis Ceze, Arvind Krishnamurthy, Tianqi Chen, Baris Kasikci
cs.AI
Samenvatting
De groeiende vraag naar Large Language Models (LLM's) in toepassingen zoals
inhoudsgeneratie, intelligente chatbots en sentimentanalyse brengt aanzienlijke
uitdagingen met zich mee voor LLM-serviceproviders. Om GPU-bronnen efficiënt te
gebruiken en de doorvoer te verhogen, is het batchverwerken van meerdere
verzoeken een populaire aanpak geworden; om het batchverwerken verder te
versnellen, verminderen LLM-kwantiseringstechnieken het geheugengebruik en
verhogen ze de rekenkracht. Echter, gangbare kwantisatieschema's (bijvoorbeeld
8-bit gewicht-activatie-kwantisering) kunnen de mogelijkheden van moderne GPU's,
zoals 4-bit integer-operators, niet volledig benutten, wat resulteert in
suboptimale prestaties.
Om de doorvoer van LLM's te maximaliseren, introduceren we Atom, een
laagbit-kwantisatiemethode die aanzienlijke doorvoerverbeteringen bereikt met
verwaarloosbaar nauwkeurigheidsverlies. Atom verhoogt de doorvoer aanzienlijk
door gebruik te maken van laagbit-operators en vermindert het geheugengebruik
aanzienlijk via laagbit-kwantisering. Het behaalt hoge nauwkeurigheid door een
nieuw gemengd-precisie en fijnmazig kwantisatieproces toe te passen. We
evalueren Atom op 4-bit gewicht-activatie-kwantisatieopstellingen in de
dienstverleningscontext. Atom verbetert de end-to-end doorvoer tot wel 7,73 keer
vergeleken met FP16 en 2,53 keer vergeleken met INT8-kwantisatie, terwijl het
dezelfde latentiedoelstelling handhaaft.
English
The growing demand for Large Language Models (LLMs) in applications such as
content generation, intelligent chatbots, and sentiment analysis poses
considerable challenges for LLM service providers. To efficiently use GPU
resources and boost throughput, batching multiple requests has emerged as a
popular paradigm; to further speed up batching, LLM quantization techniques
reduce memory consumption and increase computing capacity. However, prevalent
quantization schemes (e.g., 8-bit weight-activation quantization) cannot fully
leverage the capabilities of modern GPUs, such as 4-bit integer operators,
resulting in sub-optimal performance.
To maximize LLMs' serving throughput, we introduce Atom, a low-bit
quantization method that achieves high throughput improvements with negligible
accuracy loss. Atom significantly boosts serving throughput by using low-bit
operators and considerably reduces memory consumption via low-bit quantization.
It attains high accuracy by applying a novel mixed-precision and fine-grained
quantization process. We evaluate Atom on 4-bit weight-activation quantization
setups in the serving context. Atom improves end-to-end throughput by up to
7.73times compared to the FP16 and by 2.53times compared to INT8
quantization, while maintaining the same latency target.