Átomo: Quantização de Baixo Bit para Serviço Eficiente e Preciso de Modelos de Linguagem de Grande Escala
Atom: Low-bit Quantization for Efficient and Accurate LLM Serving
October 29, 2023
Autores: Yilong Zhao, Chien-Yu Lin, Kan Zhu, Zihao Ye, Lequn Chen, Size Zheng, Luis Ceze, Arvind Krishnamurthy, Tianqi Chen, Baris Kasikci
cs.AI
Resumo
A crescente demanda por Modelos de Linguagem de Grande Escala (LLMs) em aplicações como geração de conteúdo, chatbots inteligentes e análise de sentimentos apresenta desafios consideráveis para os provedores de serviços de LLMs. Para utilizar eficientemente os recursos de GPU e aumentar a taxa de transferência, o agrupamento de múltiplas solicitações emergiu como um paradigma popular; para acelerar ainda mais o agrupamento, técnicas de quantização de LLMs reduzem o consumo de memória e aumentam a capacidade de computação. No entanto, esquemas de quantização prevalentes (por exemplo, quantização de peso-ativação de 8 bits) não conseguem aproveitar totalmente as capacidades das GPUs modernas, como operadores inteiros de 4 bits, resultando em desempenho subótimo.
Para maximizar a taxa de transferência de LLMs, introduzimos o Atom, um método de quantização de baixo bit que alcança melhorias significativas na taxa de transferência com perda de precisão insignificante. O Atom aumenta consideravelmente a taxa de transferência ao utilizar operadores de baixo bit e reduz substancialmente o consumo de memória por meio de quantização de baixo bit. Ele atinge alta precisão ao aplicar um processo inovador de quantização de precisão mista e granularidade fina. Avaliamos o Atom em configurações de quantização de peso-ativação de 4 bits no contexto de serviço. O Atom melhora a taxa de transferência de ponta a ponta em até 7,73 vezes em comparação com o FP16 e em 2,53 vezes em comparação com a quantização INT8, mantendo o mesmo objetivo de latência.
English
The growing demand for Large Language Models (LLMs) in applications such as
content generation, intelligent chatbots, and sentiment analysis poses
considerable challenges for LLM service providers. To efficiently use GPU
resources and boost throughput, batching multiple requests has emerged as a
popular paradigm; to further speed up batching, LLM quantization techniques
reduce memory consumption and increase computing capacity. However, prevalent
quantization schemes (e.g., 8-bit weight-activation quantization) cannot fully
leverage the capabilities of modern GPUs, such as 4-bit integer operators,
resulting in sub-optimal performance.
To maximize LLMs' serving throughput, we introduce Atom, a low-bit
quantization method that achieves high throughput improvements with negligible
accuracy loss. Atom significantly boosts serving throughput by using low-bit
operators and considerably reduces memory consumption via low-bit quantization.
It attains high accuracy by applying a novel mixed-precision and fine-grained
quantization process. We evaluate Atom on 4-bit weight-activation quantization
setups in the serving context. Atom improves end-to-end throughput by up to
7.73times compared to the FP16 and by 2.53times compared to INT8
quantization, while maintaining the same latency target.