Atom: Laagbit-kwantisering voor efficiënte en nauwkeurige LLM-dienstverlening

Samenvatting

De groeiende vraag naar Large Language Models (LLM's) in toepassingen zoals inhoudsgeneratie, intelligente chatbots en sentimentanalyse brengt aanzienlijke uitdagingen met zich mee voor LLM-serviceproviders. Om GPU-bronnen efficiënt te gebruiken en de doorvoer te verhogen, is het batchverwerken van meerdere verzoeken een populaire aanpak geworden; om het batchverwerken verder te versnellen, verminderen LLM-kwantiseringstechnieken het geheugengebruik en verhogen ze de rekenkracht. Echter, gangbare kwantisatieschema's (bijvoorbeeld 8-bit gewicht-activatie-kwantisering) kunnen de mogelijkheden van moderne GPU's, zoals 4-bit integer-operators, niet volledig benutten, wat resulteert in suboptimale prestaties. Om de doorvoer van LLM's te maximaliseren, introduceren we Atom, een laagbit-kwantisatiemethode die aanzienlijke doorvoerverbeteringen bereikt met verwaarloosbaar nauwkeurigheidsverlies. Atom verhoogt de doorvoer aanzienlijk door gebruik te maken van laagbit-operators en vermindert het geheugengebruik aanzienlijk via laagbit-kwantisering. Het behaalt hoge nauwkeurigheid door een nieuw gemengd-precisie en fijnmazig kwantisatieproces toe te passen. We evalueren Atom op 4-bit gewicht-activatie-kwantisatieopstellingen in de dienstverleningscontext. Atom verbetert de end-to-end doorvoer tot wel 7,73 keer vergeleken met FP16 en 2,53 keer vergeleken met INT8-kwantisatie, terwijl het dezelfde latentiedoelstelling handhaaft.

English

The growing demand for Large Language Models (LLMs) in applications such as content generation, intelligent chatbots, and sentiment analysis poses considerable challenges for LLM service providers. To efficiently use GPU resources and boost throughput, batching multiple requests has emerged as a popular paradigm; to further speed up batching, LLM quantization techniques reduce memory consumption and increase computing capacity. However, prevalent quantization schemes (e.g., 8-bit weight-activation quantization) cannot fully leverage the capabilities of modern GPUs, such as 4-bit integer operators, resulting in sub-optimal performance. To maximize LLMs' serving throughput, we introduce Atom, a low-bit quantization method that achieves high throughput improvements with negligible accuracy loss. Atom significantly boosts serving throughput by using low-bit operators and considerably reduces memory consumption via low-bit quantization. It attains high accuracy by applying a novel mixed-precision and fine-grained quantization process. We evaluate Atom on 4-bit weight-activation quantization setups in the serving context. Atom improves end-to-end throughput by up to 7.73times compared to the FP16 and by 2.53times compared to INT8 quantization, while maintaining the same latency target.

Atom: Laagbit-kwantisering voor efficiënte en nauwkeurige LLM-dienstverlening

Atom: Low-bit Quantization for Efficient and Accurate LLM Serving

Samenvatting

Support