ChatPaper.aiChatPaper

FP6-LLM : Service efficace des grands modèles de langage grâce à une co-conception algorithme-système centrée sur FP6

FP6-LLM: Efficiently Serving Large Language Models Through FP6-Centric Algorithm-System Co-Design

January 25, 2024
Auteurs: Haojun Xia, Zhen Zheng, Xiaoxia Wu, Shiyang Chen, Zhewei Yao, Stephen Youn, Arash Bakhtiari, Michael Wyatt, Donglin Zhuang, Zhongzhu Zhou, Olatunji Ruwase, Yuxiong He, Shuaiwen Leon Song
cs.AI

Résumé

La quantification sur six bits (FP6) peut efficacement réduire la taille des grands modèles de langage (LLMs) tout en préservant la qualité du modèle de manière cohérente dans diverses applications. Cependant, les systèmes existants ne fournissent pas de support Tensor Core pour la quantification FP6 et peinent à obtenir des améliorations pratiques de performance lors de l'inférence des LLMs. Il est difficile de supporter la quantification FP6 sur les GPU en raison (1) d'un accès mémoire peu favorable des poids du modèle avec une largeur de bits irrégulière et (2) d'une surcharge élevée en temps d'exécution pour la dé-quantification des poids. Pour résoudre ces problèmes, nous proposons TC-FPx, le premier schéma de conception de noyau GPU full-stack avec un support Tensor Core unifié pour les poids en virgule flottante avec différentes largeurs de bits de quantification. Nous intégrons le noyau TC-FPx dans un système d'inférence existant, offrant un nouveau support de bout en bout (appelé FP6-LLM) pour l'inférence des LLMs quantifiés, où de meilleurs compromis entre le coût d'inférence et la qualité du modèle sont atteints. Les expériences montrent que FP6-LLM permet l'inférence de LLaMA-70b en utilisant un seul GPU, atteignant un débit d'inférence normalisé 1,69x à 2,65x supérieur à la base de référence FP16. Le code source sera bientôt disponible publiquement.
English
Six-bit quantization (FP6) can effectively reduce the size of large language models (LLMs) and preserve the model quality consistently across varied applications. However, existing systems do not provide Tensor Core support for FP6 quantization and struggle to achieve practical performance improvements during LLM inference. It is challenging to support FP6 quantization on GPUs due to (1) unfriendly memory access of model weights with irregular bit-width and (2) high runtime overhead of weight de-quantization. To address these problems, we propose TC-FPx, the first full-stack GPU kernel design scheme with unified Tensor Core support of float-point weights for various quantization bit-width. We integrate TC-FPx kernel into an existing inference system, providing new end-to-end support (called FP6-LLM) for quantized LLM inference, where better trade-offs between inference cost and model quality are achieved. Experiments show that FP6-LLM enables the inference of LLaMA-70b using only a single GPU, achieving 1.69x-2.65x higher normalized inference throughput than the FP16 baseline. The source code will be publicly available soon.
PDF217December 15, 2024