Átomo: Quantização de Baixo Bit para Serviço Eficiente e Preciso de Modelos de Linguagem de Grande Escala

Resumo

A crescente demanda por Modelos de Linguagem de Grande Escala (LLMs) em aplicações como geração de conteúdo, chatbots inteligentes e análise de sentimentos apresenta desafios consideráveis para os provedores de serviços de LLMs. Para utilizar eficientemente os recursos de GPU e aumentar a taxa de transferência, o agrupamento de múltiplas solicitações emergiu como um paradigma popular; para acelerar ainda mais o agrupamento, técnicas de quantização de LLMs reduzem o consumo de memória e aumentam a capacidade de computação. No entanto, esquemas de quantização prevalentes (por exemplo, quantização de peso-ativação de 8 bits) não conseguem aproveitar totalmente as capacidades das GPUs modernas, como operadores inteiros de 4 bits, resultando em desempenho subótimo. Para maximizar a taxa de transferência de LLMs, introduzimos o Atom, um método de quantização de baixo bit que alcança melhorias significativas na taxa de transferência com perda de precisão insignificante. O Atom aumenta consideravelmente a taxa de transferência ao utilizar operadores de baixo bit e reduz substancialmente o consumo de memória por meio de quantização de baixo bit. Ele atinge alta precisão ao aplicar um processo inovador de quantização de precisão mista e granularidade fina. Avaliamos o Atom em configurações de quantização de peso-ativação de 4 bits no contexto de serviço. O Atom melhora a taxa de transferência de ponta a ponta em até 7,73 vezes em comparação com o FP16 e em 2,53 vezes em comparação com a quantização INT8, mantendo o mesmo objetivo de latência.

English

The growing demand for Large Language Models (LLMs) in applications such as content generation, intelligent chatbots, and sentiment analysis poses considerable challenges for LLM service providers. To efficiently use GPU resources and boost throughput, batching multiple requests has emerged as a popular paradigm; to further speed up batching, LLM quantization techniques reduce memory consumption and increase computing capacity. However, prevalent quantization schemes (e.g., 8-bit weight-activation quantization) cannot fully leverage the capabilities of modern GPUs, such as 4-bit integer operators, resulting in sub-optimal performance. To maximize LLMs' serving throughput, we introduce Atom, a low-bit quantization method that achieves high throughput improvements with negligible accuracy loss. Atom significantly boosts serving throughput by using low-bit operators and considerably reduces memory consumption via low-bit quantization. It attains high accuracy by applying a novel mixed-precision and fine-grained quantization process. We evaluate Atom on 4-bit weight-activation quantization setups in the serving context. Atom improves end-to-end throughput by up to 7.73times compared to the FP16 and by 2.53times compared to INT8 quantization, while maintaining the same latency target.

Átomo: Quantização de Baixo Bit para Serviço Eficiente e Preciso de Modelos de Linguagem de Grande Escala

Atom: Low-bit Quantization for Efficient and Accurate LLM Serving

Resumo

Support