FP6-LLM: Servindo Eficientemente Modelos de Linguagem de Grande Escala Através da Co-Design Algoritmo-Sistema Centrada em FP6
FP6-LLM: Efficiently Serving Large Language Models Through FP6-Centric Algorithm-System Co-Design
January 25, 2024
Autores: Haojun Xia, Zhen Zheng, Xiaoxia Wu, Shiyang Chen, Zhewei Yao, Stephen Youn, Arash Bakhtiari, Michael Wyatt, Donglin Zhuang, Zhongzhu Zhou, Olatunji Ruwase, Yuxiong He, Shuaiwen Leon Song
cs.AI
Resumo
A quantização de seis bits (FP6) pode reduzir efetivamente o tamanho de grandes modelos de linguagem (LLMs) e preservar a qualidade do modelo de forma consistente em diversas aplicações. No entanto, os sistemas existentes não oferecem suporte a Tensor Cores para quantização FP6 e lutam para alcançar melhorias práticas de desempenho durante a inferência de LLMs. É desafiador suportar a quantização FP6 em GPUs devido a (1) acesso à memória desfavorável de pesos de modelo com largura de bits irregular e (2) alta sobrecarga de tempo de execução na desquantização de pesos. Para resolver esses problemas, propomos o TC-FPx, o primeiro esquema de design de kernel GPU full-stack com suporte unificado a Tensor Cores para pesos de ponto flutuante com várias larguras de bits de quantização. Integramos o kernel TC-FPx em um sistema de inferência existente, fornecendo um novo suporte de ponta a ponta (chamado FP6-LLM) para inferência de LLMs quantizados, onde são alcançados melhores trade-offs entre custo de inferência e qualidade do modelo. Experimentos mostram que o FP6-LLM permite a inferência de LLaMA-70b usando apenas uma única GPU, alcançando uma taxa de transferência de inferência normalizada 1,69x-2,65x maior que a linha de base FP16. O código-fonte estará disponível publicamente em breve.
English
Six-bit quantization (FP6) can effectively reduce the size of large language
models (LLMs) and preserve the model quality consistently across varied
applications. However, existing systems do not provide Tensor Core support for
FP6 quantization and struggle to achieve practical performance improvements
during LLM inference. It is challenging to support FP6 quantization on GPUs due
to (1) unfriendly memory access of model weights with irregular bit-width and
(2) high runtime overhead of weight de-quantization. To address these problems,
we propose TC-FPx, the first full-stack GPU kernel design scheme with unified
Tensor Core support of float-point weights for various quantization bit-width.
We integrate TC-FPx kernel into an existing inference system, providing new
end-to-end support (called FP6-LLM) for quantized LLM inference, where better
trade-offs between inference cost and model quality are achieved. Experiments
show that FP6-LLM enables the inference of LLaMA-70b using only a single GPU,
achieving 1.69x-2.65x higher normalized inference throughput than the FP16
baseline. The source code will be publicly available soon.