Atom: Низкобитная квантизация для эффективного и точного обслуживания больших языковых моделей
Atom: Low-bit Quantization for Efficient and Accurate LLM Serving
October 29, 2023
Авторы: Yilong Zhao, Chien-Yu Lin, Kan Zhu, Zihao Ye, Lequn Chen, Size Zheng, Luis Ceze, Arvind Krishnamurthy, Tianqi Chen, Baris Kasikci
cs.AI
Аннотация
Растущий спрос на крупные языковые модели (LLM) в таких приложениях, как генерация контента, интеллектуальные чат-боты и анализ тональности, создает значительные вызовы для поставщиков услуг LLM. Для эффективного использования ресурсов GPU и повышения пропускной способности популярной парадигмой стало пакетное выполнение множества запросов; чтобы ускорить пакетную обработку, методы квантования LLM сокращают потребление памяти и увеличивают вычислительную мощность. Однако распространенные схемы квантования (например, 8-битное квантование весов и активаций) не могут полностью использовать возможности современных GPU, такие как 4-битные целочисленные операторы, что приводит к неоптимальной производительности.
Чтобы максимизировать пропускную способность обслуживания LLM, мы представляем Atom — метод низкобитного квантования, который обеспечивает значительное улучшение пропускной способности с минимальной потерей точности. Atom значительно повышает пропускную способность за счет использования низкобитных операторов и существенно снижает потребление памяти благодаря низкобитному квантованию. Высокая точность достигается за счет применения нового процесса смешанной точности и детализированного квантования. Мы оцениваем Atom в контексте обслуживания с использованием 4-битного квантования весов и активаций. Atom улучшает сквозную пропускную способность до 7,73 раз по сравнению с FP16 и до 2,53 раз по сравнению с INT8 квантованием, сохраняя при этом тот же целевой показатель задержки.
English
The growing demand for Large Language Models (LLMs) in applications such as
content generation, intelligent chatbots, and sentiment analysis poses
considerable challenges for LLM service providers. To efficiently use GPU
resources and boost throughput, batching multiple requests has emerged as a
popular paradigm; to further speed up batching, LLM quantization techniques
reduce memory consumption and increase computing capacity. However, prevalent
quantization schemes (e.g., 8-bit weight-activation quantization) cannot fully
leverage the capabilities of modern GPUs, such as 4-bit integer operators,
resulting in sub-optimal performance.
To maximize LLMs' serving throughput, we introduce Atom, a low-bit
quantization method that achieves high throughput improvements with negligible
accuracy loss. Atom significantly boosts serving throughput by using low-bit
operators and considerably reduces memory consumption via low-bit quantization.
It attains high accuracy by applying a novel mixed-precision and fine-grained
quantization process. We evaluate Atom on 4-bit weight-activation quantization
setups in the serving context. Atom improves end-to-end throughput by up to
7.73times compared to the FP16 and by 2.53times compared to INT8
quantization, while maintaining the same latency target.