ChatPaper.aiChatPaper

Atom: 효율적이고 정확한 LLM 서빙을 위한 저비트 양자화

Atom: Low-bit Quantization for Efficient and Accurate LLM Serving

October 29, 2023
저자: Yilong Zhao, Chien-Yu Lin, Kan Zhu, Zihao Ye, Lequn Chen, Size Zheng, Luis Ceze, Arvind Krishnamurthy, Tianqi Chen, Baris Kasikci
cs.AI

초록

콘텐츠 생성, 지능형 챗봇, 감정 분석과 같은 애플리케이션에서 대형 언어 모델(LLMs)에 대한 수요가 증가함에 따라 LLM 서비스 제공자들은 상당한 과제에 직면하고 있습니다. GPU 자원을 효율적으로 사용하고 처리량을 높이기 위해 여러 요청을 배치 처리하는 방식이 널리 사용되고 있으며, 배치 처리 속도를 더욱 높이기 위해 LLM 양자화 기술이 메모리 소비를 줄이고 컴퓨팅 용량을 증가시키고 있습니다. 그러나 현재 널리 사용되는 양자화 방식(예: 8비트 가중치-활성화 양자화)은 4비트 정수 연산자와 같은 현대 GPU의 성능을 완전히 활용하지 못해 최적의 성능을 달성하지 못하고 있습니다. LLM의 서비스 처리량을 극대화하기 위해, 우리는 정확도 손실을 최소화하면서 높은 처리량 개선을 달성하는 저비트 양자화 방법인 Atom을 소개합니다. Atom은 저비트 연산자를 사용하여 서비스 처리량을 크게 향상시키고, 저비트 양자화를 통해 메모리 소비를 상당히 줄입니다. 또한, 새로운 혼합 정밀도 및 세밀한 양자화 프로세스를 적용하여 높은 정확도를 유지합니다. 우리는 Atom을 서비스 환경에서 4비트 가중치-활성화 양자화 설정으로 평가했습니다. Atom은 FP16 대비 최대 7.73배, INT8 양자화 대비 2.53배의 종단 간 처리량 개선을 달성하면서 동일한 지연 시간 목표를 유지합니다.
English
The growing demand for Large Language Models (LLMs) in applications such as content generation, intelligent chatbots, and sentiment analysis poses considerable challenges for LLM service providers. To efficiently use GPU resources and boost throughput, batching multiple requests has emerged as a popular paradigm; to further speed up batching, LLM quantization techniques reduce memory consumption and increase computing capacity. However, prevalent quantization schemes (e.g., 8-bit weight-activation quantization) cannot fully leverage the capabilities of modern GPUs, such as 4-bit integer operators, resulting in sub-optimal performance. To maximize LLMs' serving throughput, we introduce Atom, a low-bit quantization method that achieves high throughput improvements with negligible accuracy loss. Atom significantly boosts serving throughput by using low-bit operators and considerably reduces memory consumption via low-bit quantization. It attains high accuracy by applying a novel mixed-precision and fine-grained quantization process. We evaluate Atom on 4-bit weight-activation quantization setups in the serving context. Atom improves end-to-end throughput by up to 7.73times compared to the FP16 and by 2.53times compared to INT8 quantization, while maintaining the same latency target.
PDF114December 15, 2024