Atom: Cuantización de Bajo Bit para un Servicio Eficiente y Preciso de Modelos de Lenguaje Grande
Atom: Low-bit Quantization for Efficient and Accurate LLM Serving
October 29, 2023
Autores: Yilong Zhao, Chien-Yu Lin, Kan Zhu, Zihao Ye, Lequn Chen, Size Zheng, Luis Ceze, Arvind Krishnamurthy, Tianqi Chen, Baris Kasikci
cs.AI
Resumen
La creciente demanda de Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) en aplicaciones como generación de contenido, chatbots inteligentes y análisis de sentimientos plantea desafíos considerables para los proveedores de servicios de LLMs. Para utilizar eficientemente los recursos de GPU y aumentar el rendimiento, el procesamiento por lotes (batching) de múltiples solicitudes ha surgido como un paradigma popular; para acelerar aún más este proceso, las técnicas de cuantización de LLMs reducen el consumo de memoria y aumentan la capacidad de cómputo. Sin embargo, los esquemas de cuantización predominantes (por ejemplo, cuantización de pesos y activaciones a 8 bits) no pueden aprovechar completamente las capacidades de las GPU modernas, como los operadores de enteros de 4 bits, lo que resulta en un rendimiento subóptimo.
Para maximizar el rendimiento en la prestación de servicios de LLMs, presentamos Atom, un método de cuantización de bajo bit que logra mejoras significativas en el rendimiento con una pérdida de precisión mínima. Atom aumenta considerablemente el rendimiento al utilizar operadores de bajo bit y reduce notablemente el consumo de memoria mediante la cuantización de bajo bit. Además, alcanza una alta precisión aplicando un novedoso proceso de cuantización de precisión mixta y granularidad fina. Evaluamos Atom en configuraciones de cuantización de pesos y activaciones a 4 bits en el contexto de prestación de servicios. Atom mejora el rendimiento de extremo a extremo hasta 7.73 veces en comparación con FP16 y 2.53 veces en comparación con la cuantización INT8, manteniendo el mismo objetivo de latencia.
English
The growing demand for Large Language Models (LLMs) in applications such as
content generation, intelligent chatbots, and sentiment analysis poses
considerable challenges for LLM service providers. To efficiently use GPU
resources and boost throughput, batching multiple requests has emerged as a
popular paradigm; to further speed up batching, LLM quantization techniques
reduce memory consumption and increase computing capacity. However, prevalent
quantization schemes (e.g., 8-bit weight-activation quantization) cannot fully
leverage the capabilities of modern GPUs, such as 4-bit integer operators,
resulting in sub-optimal performance.
To maximize LLMs' serving throughput, we introduce Atom, a low-bit
quantization method that achieves high throughput improvements with negligible
accuracy loss. Atom significantly boosts serving throughput by using low-bit
operators and considerably reduces memory consumption via low-bit quantization.
It attains high accuracy by applying a novel mixed-precision and fine-grained
quantization process. We evaluate Atom on 4-bit weight-activation quantization
setups in the serving context. Atom improves end-to-end throughput by up to
7.73times compared to the FP16 and by 2.53times compared to INT8
quantization, while maintaining the same latency target.