FP6-LLM: Servindo Eficientemente Modelos de Linguagem de Grande Escala Através da Co-Design Algoritmo-Sistema Centrada em FP6

Resumo

A quantização de seis bits (FP6) pode reduzir efetivamente o tamanho de grandes modelos de linguagem (LLMs) e preservar a qualidade do modelo de forma consistente em diversas aplicações. No entanto, os sistemas existentes não oferecem suporte a Tensor Cores para quantização FP6 e lutam para alcançar melhorias práticas de desempenho durante a inferência de LLMs. É desafiador suportar a quantização FP6 em GPUs devido a (1) acesso à memória desfavorável de pesos de modelo com largura de bits irregular e (2) alta sobrecarga de tempo de execução na desquantização de pesos. Para resolver esses problemas, propomos o TC-FPx, o primeiro esquema de design de kernel GPU full-stack com suporte unificado a Tensor Cores para pesos de ponto flutuante com várias larguras de bits de quantização. Integramos o kernel TC-FPx em um sistema de inferência existente, fornecendo um novo suporte de ponta a ponta (chamado FP6-LLM) para inferência de LLMs quantizados, onde são alcançados melhores trade-offs entre custo de inferência e qualidade do modelo. Experimentos mostram que o FP6-LLM permite a inferência de LLaMA-70b usando apenas uma única GPU, alcançando uma taxa de transferência de inferência normalizada 1,69x-2,65x maior que a linha de base FP16. O código-fonte estará disponível publicamente em breve.

English

Six-bit quantization (FP6) can effectively reduce the size of large language models (LLMs) and preserve the model quality consistently across varied applications. However, existing systems do not provide Tensor Core support for FP6 quantization and struggle to achieve practical performance improvements during LLM inference. It is challenging to support FP6 quantization on GPUs due to (1) unfriendly memory access of model weights with irregular bit-width and (2) high runtime overhead of weight de-quantization. To address these problems, we propose TC-FPx, the first full-stack GPU kernel design scheme with unified Tensor Core support of float-point weights for various quantization bit-width. We integrate TC-FPx kernel into an existing inference system, providing new end-to-end support (called FP6-LLM) for quantized LLM inference, where better trade-offs between inference cost and model quality are achieved. Experiments show that FP6-LLM enables the inference of LLaMA-70b using only a single GPU, achieving 1.69x-2.65x higher normalized inference throughput than the FP16 baseline. The source code will be publicly available soon.

FP6-LLM: Servindo Eficientemente Modelos de Linguagem de Grande Escala Através da Co-Design Algoritmo-Sistema Centrada em FP6

FP6-LLM: Efficiently Serving Large Language Models Through FP6-Centric Algorithm-System Co-Design

Resumo

Support