FP6-LLM: FP6 중심의 알고리즘-시스템 공동 설계를 통한 대규모 언어 모델의 효율적 서비스 제공
FP6-LLM: Efficiently Serving Large Language Models Through FP6-Centric Algorithm-System Co-Design
January 25, 2024
저자: Haojun Xia, Zhen Zheng, Xiaoxia Wu, Shiyang Chen, Zhewei Yao, Stephen Youn, Arash Bakhtiari, Michael Wyatt, Donglin Zhuang, Zhongzhu Zhou, Olatunji Ruwase, Yuxiong He, Shuaiwen Leon Song
cs.AI
초록
6비트 양자화(FP6)는 대규모 언어 모델(LLM)의 크기를 효과적으로 줄이고 다양한 애플리케이션에서 모델 품질을 일관되게 유지할 수 있습니다. 그러나 기존 시스템은 FP6 양자화에 대한 Tensor Core 지원을 제공하지 않으며, LLM 추론 과정에서 실질적인 성능 향상을 달성하는 데 어려움을 겪고 있습니다. GPU에서 FP6 양자화를 지원하는 것은 (1) 불규칙한 비트 폭을 가진 모델 가중치의 비친화적인 메모리 접근과 (2) 가중치 역양자화의 높은 런타임 오버헤드로 인해 어려운 과제입니다. 이러한 문제를 해결하기 위해, 우리는 다양한 양자화 비트 폭에 대한 부동 소수점 가중치의 통합 Tensor Core 지원을 제공하는 최초의 풀스택 GPU 커널 설계 기법인 TC-FPx를 제안합니다. 우리는 TC-FPx 커널을 기존 추론 시스템에 통합하여 양자화된 LLM 추론을 위한 새로운 엔드투엔드 지원(FP6-LLM이라고 함)을 제공하며, 추론 비용과 모델 품질 간의 더 나은 균형을 달성합니다. 실험 결과, FP6-LLM은 단일 GPU만을 사용하여 LLaMA-70b의 추론을 가능하게 하며, FP16 기준 대비 1.69배에서 2.65배 더 높은 정규화된 추론 처리량을 달성합니다. 소스 코드는 곧 공개될 예정입니다.
English
Six-bit quantization (FP6) can effectively reduce the size of large language
models (LLMs) and preserve the model quality consistently across varied
applications. However, existing systems do not provide Tensor Core support for
FP6 quantization and struggle to achieve practical performance improvements
during LLM inference. It is challenging to support FP6 quantization on GPUs due
to (1) unfriendly memory access of model weights with irregular bit-width and
(2) high runtime overhead of weight de-quantization. To address these problems,
we propose TC-FPx, the first full-stack GPU kernel design scheme with unified
Tensor Core support of float-point weights for various quantization bit-width.
We integrate TC-FPx kernel into an existing inference system, providing new
end-to-end support (called FP6-LLM) for quantized LLM inference, where better
trade-offs between inference cost and model quality are achieved. Experiments
show that FP6-LLM enables the inference of LLaMA-70b using only a single GPU,
achieving 1.69x-2.65x higher normalized inference throughput than the FP16
baseline. The source code will be publicly available soon.