Déquantisation consciente de TP
TP-Aware Dequantization
January 15, 2024
Auteurs: Adnan Hoque, Mudhakar Srivatsa, Chih-Chieh Yang, Raghu Ganti
cs.AI
Résumé
Dans cet article, nous présentons une méthode novatrice qui réduit la latence d'inférence des modèles lors du déploiement distribué de grands modèles de langage (LLM). Notre contribution est un schéma d'inférence optimisé qui surmonte les limitations actuelles des noyaux de quantification de pointe lorsqu'ils sont utilisés conjointement avec le parallélisme tensoriel (TP). Notre méthode préserve la localité des données dans les modèles d'accès à la mémoire GPU et exploite une connaissance a priori du TP pour réduire la communication globale. Nous démontrons une accélération allant jusqu'à 1,81x par rapport aux méthodes existantes pour Llama-70B et jusqu'à 1,78x pour les tailles de problème de la couche MLP de Granite-20B d'IBM WatsonX sur les systèmes NVIDIA DGX A100 et H100, pour diverses configurations de TP.
English
In this paper, we present a novel method that reduces model inference latency
during distributed deployment of Large Language Models (LLMs). Our contribution
is an optimized inference deployment scheme that address the current
limitations of state-of-the-art quantization kernels when used in conjunction
with Tensor Parallel (TP). Our method preserves data locality in GPU memory
access patterns and exploits a priori knowledge of TP to reduce global
communication. We demonstrate an up to 1.81x speedup over existing methods for
Llama-70B and up to 1.78x speedup for IBM WatsonX's Granite-20B MLP layer
problem sizes on A100 and H100 NVIDIA DGX Systems for a variety of TP settings.