FP6-LLM: Servicio Eficiente de Modelos de Lenguaje Grandes Mediante Co-Diseño Algoritmo-Sistema Centrado en FP6

Resumen

La cuantización de seis bits (FP6) puede reducir efectivamente el tamaño de los modelos de lenguaje grandes (LLMs) y preservar la calidad del modelo de manera consistente en diversas aplicaciones. Sin embargo, los sistemas existentes no ofrecen soporte para Tensor Core en la cuantización FP6 y tienen dificultades para lograr mejoras prácticas en el rendimiento durante la inferencia de LLMs. Es un desafío soportar la cuantización FP6 en GPUs debido a (1) el acceso a memoria poco amigable de los pesos del modelo con ancho de bits irregular y (2) el alto costo en tiempo de ejecución de la des-cuantización de los pesos. Para abordar estos problemas, proponemos TC-FPx, el primer esquema de diseño de kernel GPU de pila completa con soporte unificado de Tensor Core para pesos de punto flotante con varios anchos de bits de cuantización. Integramos el kernel TC-FPx en un sistema de inferencia existente, proporcionando un nuevo soporte de extremo a extremo (llamado FP6-LLM) para la inferencia de LLMs cuantizados, donde se logran mejores compensaciones entre el costo de inferencia y la calidad del modelo. Los experimentos muestran que FP6-LLM permite la inferencia de LLaMA-70b utilizando solo una GPU, alcanzando un rendimiento normalizado de inferencia 1.69x-2.65x mayor que la línea base FP16. El código fuente estará disponible públicamente pronto.

English

Six-bit quantization (FP6) can effectively reduce the size of large language models (LLMs) and preserve the model quality consistently across varied applications. However, existing systems do not provide Tensor Core support for FP6 quantization and struggle to achieve practical performance improvements during LLM inference. It is challenging to support FP6 quantization on GPUs due to (1) unfriendly memory access of model weights with irregular bit-width and (2) high runtime overhead of weight de-quantization. To address these problems, we propose TC-FPx, the first full-stack GPU kernel design scheme with unified Tensor Core support of float-point weights for various quantization bit-width. We integrate TC-FPx kernel into an existing inference system, providing new end-to-end support (called FP6-LLM) for quantized LLM inference, where better trade-offs between inference cost and model quality are achieved. Experiments show that FP6-LLM enables the inference of LLaMA-70b using only a single GPU, achieving 1.69x-2.65x higher normalized inference throughput than the FP16 baseline. The source code will be publicly available soon.

FP6-LLM: Servicio Eficiente de Modelos de Lenguaje Grandes Mediante Co-Diseño Algoritmo-Sistema Centrado en FP6

FP6-LLM: Efficiently Serving Large Language Models Through FP6-Centric Algorithm-System Co-Design

Resumen

Support