FP6-LLM: Servicio Eficiente de Modelos de Lenguaje Grandes Mediante Co-Diseño Algoritmo-Sistema Centrado en FP6
FP6-LLM: Efficiently Serving Large Language Models Through FP6-Centric Algorithm-System Co-Design
January 25, 2024
Autores: Haojun Xia, Zhen Zheng, Xiaoxia Wu, Shiyang Chen, Zhewei Yao, Stephen Youn, Arash Bakhtiari, Michael Wyatt, Donglin Zhuang, Zhongzhu Zhou, Olatunji Ruwase, Yuxiong He, Shuaiwen Leon Song
cs.AI
Resumen
La cuantización de seis bits (FP6) puede reducir efectivamente el tamaño de los modelos de lenguaje grandes (LLMs) y preservar la calidad del modelo de manera consistente en diversas aplicaciones. Sin embargo, los sistemas existentes no ofrecen soporte para Tensor Core en la cuantización FP6 y tienen dificultades para lograr mejoras prácticas en el rendimiento durante la inferencia de LLMs. Es un desafío soportar la cuantización FP6 en GPUs debido a (1) el acceso a memoria poco amigable de los pesos del modelo con ancho de bits irregular y (2) el alto costo en tiempo de ejecución de la des-cuantización de los pesos. Para abordar estos problemas, proponemos TC-FPx, el primer esquema de diseño de kernel GPU de pila completa con soporte unificado de Tensor Core para pesos de punto flotante con varios anchos de bits de cuantización. Integramos el kernel TC-FPx en un sistema de inferencia existente, proporcionando un nuevo soporte de extremo a extremo (llamado FP6-LLM) para la inferencia de LLMs cuantizados, donde se logran mejores compensaciones entre el costo de inferencia y la calidad del modelo. Los experimentos muestran que FP6-LLM permite la inferencia de LLaMA-70b utilizando solo una GPU, alcanzando un rendimiento normalizado de inferencia 1.69x-2.65x mayor que la línea base FP16. El código fuente estará disponible públicamente pronto.
English
Six-bit quantization (FP6) can effectively reduce the size of large language
models (LLMs) and preserve the model quality consistently across varied
applications. However, existing systems do not provide Tensor Core support for
FP6 quantization and struggle to achieve practical performance improvements
during LLM inference. It is challenging to support FP6 quantization on GPUs due
to (1) unfriendly memory access of model weights with irregular bit-width and
(2) high runtime overhead of weight de-quantization. To address these problems,
we propose TC-FPx, the first full-stack GPU kernel design scheme with unified
Tensor Core support of float-point weights for various quantization bit-width.
We integrate TC-FPx kernel into an existing inference system, providing new
end-to-end support (called FP6-LLM) for quantized LLM inference, where better
trade-offs between inference cost and model quality are achieved. Experiments
show that FP6-LLM enables the inference of LLaMA-70b using only a single GPU,
achieving 1.69x-2.65x higher normalized inference throughput than the FP16
baseline. The source code will be publicly available soon.