ChatPaper.aiChatPaper

FP6-LLM: Efficiënte Bediening van Grote Taalmodellen Door FP6-Gecentreerde Algoritme-Systeem Co-Design

FP6-LLM: Efficiently Serving Large Language Models Through FP6-Centric Algorithm-System Co-Design

January 25, 2024
Auteurs: Haojun Xia, Zhen Zheng, Xiaoxia Wu, Shiyang Chen, Zhewei Yao, Stephen Youn, Arash Bakhtiari, Michael Wyatt, Donglin Zhuang, Zhongzhu Zhou, Olatunji Ruwase, Yuxiong He, Shuaiwen Leon Song
cs.AI

Samenvatting

Zes-bits kwantisatie (FP6) kan effectief de grootte van grote taalmodellen (LLM's) verkleinen en de modelkwaliteit consistent behouden over diverse toepassingen. Echter, bestaande systemen bieden geen Tensor Core-ondersteuning voor FP6-kwantisatie en hebben moeite om praktische prestatieverbeteringen te bereiken tijdens LLM-inferentie. Het ondersteunen van FP6-kwantisatie op GPU's is uitdagend vanwege (1) onvriendelijke geheugentoegang van modelgewichten met onregelmatige bitbreedte en (2) hoge runtime-overhead van gewichts-dekwantisatie. Om deze problemen aan te pakken, stellen we TC-FPx voor, het eerste full-stack GPU-kernelontwerpschema met geïntegreerde Tensor Core-ondersteuning voor floating-point gewichten met verschillende kwantisatie-bitbreedtes. We integreren de TC-FPx-kernel in een bestaand inferentiesysteem, waardoor nieuwe end-to-end ondersteuning (genaamd FP6-LLM) voor gekwantiseerde LLM-inferentie wordt geboden, waarbij betere afwegingen tussen inferentiekosten en modelkwaliteit worden bereikt. Experimenten tonen aan dat FP6-LLM de inferentie van LLaMA-70b mogelijk maakt met slechts één GPU, waarbij een 1,69x-2,65x hogere genormaliseerde inferentiedoorvoer wordt bereikt dan de FP16-basislijn. De broncode zal binnenkort publiekelijk beschikbaar zijn.
English
Six-bit quantization (FP6) can effectively reduce the size of large language models (LLMs) and preserve the model quality consistently across varied applications. However, existing systems do not provide Tensor Core support for FP6 quantization and struggle to achieve practical performance improvements during LLM inference. It is challenging to support FP6 quantization on GPUs due to (1) unfriendly memory access of model weights with irregular bit-width and (2) high runtime overhead of weight de-quantization. To address these problems, we propose TC-FPx, the first full-stack GPU kernel design scheme with unified Tensor Core support of float-point weights for various quantization bit-width. We integrate TC-FPx kernel into an existing inference system, providing new end-to-end support (called FP6-LLM) for quantized LLM inference, where better trade-offs between inference cost and model quality are achieved. Experiments show that FP6-LLM enables the inference of LLaMA-70b using only a single GPU, achieving 1.69x-2.65x higher normalized inference throughput than the FP16 baseline. The source code will be publicly available soon.
PDF207February 7, 2026