ChatPaper.aiChatPaper

Atom: 効率的かつ高精度なLLMサービングのための低ビット量子化

Atom: Low-bit Quantization for Efficient and Accurate LLM Serving

October 29, 2023
著者: Yilong Zhao, Chien-Yu Lin, Kan Zhu, Zihao Ye, Lequn Chen, Size Zheng, Luis Ceze, Arvind Krishnamurthy, Tianqi Chen, Baris Kasikci
cs.AI

要旨

大規模言語モデル(LLM)に対する需要が、コンテンツ生成、インテリジェントチャットボット、感情分析などのアプリケーションにおいて増大する中、LLMサービスプロバイダーにとっては大きな課題が生じています。GPUリソースを効率的に活用し、スループットを向上させるために、複数のリクエストをバッチ処理する手法が一般的なパラダイムとして登場しました。さらに、バッチ処理を高速化するために、LLMの量子化技術がメモリ消費を削減し、計算能力を向上させています。しかし、現在広く使われている量子化スキーム(例えば、8ビットの重みと活性化の量子化)では、4ビット整数演算子などの最新GPUの能力を十分に活用できず、最適な性能を発揮できないという問題があります。 LLMのサービススループットを最大化するために、私たちはAtomという低ビット量子化手法を提案します。Atomは、精度の低下をほとんど伴わずに高いスループット向上を実現します。Atomは、低ビット演算子を使用することでサービススループットを大幅に向上させ、低ビット量子化によりメモリ消費を大幅に削減します。さらに、新しい混合精度と細粒度の量子化プロセスを適用することで高い精度を維持します。私たちは、サービングコンテキストにおける4ビットの重みと活性化の量子化設定でAtomを評価しました。その結果、AtomはFP16と比較して最大7.73倍、INT8量子化と比較して2.53倍のエンドツーエンドスループット向上を達成し、同じレイテンシ目標を維持しました。
English
The growing demand for Large Language Models (LLMs) in applications such as content generation, intelligent chatbots, and sentiment analysis poses considerable challenges for LLM service providers. To efficiently use GPU resources and boost throughput, batching multiple requests has emerged as a popular paradigm; to further speed up batching, LLM quantization techniques reduce memory consumption and increase computing capacity. However, prevalent quantization schemes (e.g., 8-bit weight-activation quantization) cannot fully leverage the capabilities of modern GPUs, such as 4-bit integer operators, resulting in sub-optimal performance. To maximize LLMs' serving throughput, we introduce Atom, a low-bit quantization method that achieves high throughput improvements with negligible accuracy loss. Atom significantly boosts serving throughput by using low-bit operators and considerably reduces memory consumption via low-bit quantization. It attains high accuracy by applying a novel mixed-precision and fine-grained quantization process. We evaluate Atom on 4-bit weight-activation quantization setups in the serving context. Atom improves end-to-end throughput by up to 7.73times compared to the FP16 and by 2.53times compared to INT8 quantization, while maintaining the same latency target.
PDF114December 15, 2024