ZeroQuant(4+2): 다양한 생성 작업을 위한 새로운 FP6 중심 전략으로 LLM 양자화 재정의
ZeroQuant(4+2): Redefining LLMs Quantization with a New FP6-Centric Strategy for Diverse Generative Tasks
December 14, 2023
저자: Xiaoxia Wu, Haojun Xia, Stephen Youn, Zhen Zheng, Shiyang Chen, Arash Bakhtiari, Michael Wyatt, Yuxiong He, Olatunji Ruwase, Leon Song, Zhewei Yao
cs.AI
초록
본 연구는 GPTQ와 같은 4비트 양자화 방법을 대규모 언어 모델(LLM)에 적용하여 검토하였으며, GPTQ의 과적합 문제와 Zero-Shot 작업에서의 제한된 성능 향상을 밝혀냈습니다. 기존 연구들이 주로 Zero-Shot 측정에 초점을 맞췄던 반면, 우리는 코드 생성 및 추상적 요약과 같은 더 많은 생성적 작업 범위로 확장하여 INT4 양자화가 상당히 저조한 성능을 보일 수 있음을 발견했습니다. 그러나 FP6와 같은 더 높은 정밀도 형식으로 전환하는 것은 현재의 AI 하드웨어에서 정교한 통합 및 시스템 가속 전략의 부족으로 인한 낮은 성능으로 인해 특히 어려운 과제로 간과되어 왔습니다. 우리의 결과는 FP6가 조잡한 양자화 방식에도 불구하고 다양한 알고리즘과 작업에서 견고하게 작동하며, 정확성과 다용도성에서 우수성을 보여줍니다. 특히, FP6 양자화를 통해 \codestar-15B 모델은 코드 생성에서 FP16 버전과 비슷한 성능을 보였으며, 406M과 같은 더 작은 모델에서는 요약 작업에서 기준선과 거의 일치하는 성능을 보였습니다. 이는 INT4로는 달성할 수 없는 결과입니다. 다양한 AI 하드웨어를 더 잘 지원하고 최고의 시스템 성능을 달성하기 위해, 우리는 FP6를 위한 새로운 4+2 설계를 제안하여 최신 INT4 세밀 양자화와 유사한 지연 시간을 달성했습니다. 우리의 설계를 통해 FP6는 현재 LLM에서 사용되는 4비트 양자화 방법에 대한 유망한 해결책이 될 수 있습니다.
English
This study examines 4-bit quantization methods like GPTQ in large language
models (LLMs), highlighting GPTQ's overfitting and limited enhancement in
Zero-Shot tasks. While prior works merely focusing on zero-shot measurement, we
extend task scope to more generative categories such as code generation and
abstractive summarization, in which we found that INT4 quantization can
significantly underperform. However, simply shifting to higher precision
formats like FP6 has been particularly challenging, thus overlooked, due to
poor performance caused by the lack of sophisticated integration and system
acceleration strategies on current AI hardware. Our results show that FP6, even
with a coarse-grain quantization scheme, performs robustly across various
algorithms and tasks, demonstrating its superiority in accuracy and
versatility. Notably, with the FP6 quantization, \codestar-15B model performs
comparably to its FP16 counterpart in code generation, and for smaller models
like the 406M it closely matches their baselines in summarization. Neither can
be achieved by INT4. To better accommodate various AI hardware and achieve the
best system performance, we propose a novel 4+2 design for FP6 to achieve
similar latency to the state-of-the-art INT4 fine-grain quantization. With our
design, FP6 can become a promising solution to the current 4-bit quantization
methods used in LLMs.