Déquantisation consciente de TP

papers.abstract

Dans cet article, nous présentons une méthode novatrice qui réduit la latence d'inférence des modèles lors du déploiement distribué de grands modèles de langage (LLM). Notre contribution est un schéma d'inférence optimisé qui surmonte les limitations actuelles des noyaux de quantification de pointe lorsqu'ils sont utilisés conjointement avec le parallélisme tensoriel (TP). Notre méthode préserve la localité des données dans les modèles d'accès à la mémoire GPU et exploite une connaissance a priori du TP pour réduire la communication globale. Nous démontrons une accélération allant jusqu'à 1,81x par rapport aux méthodes existantes pour Llama-70B et jusqu'à 1,78x pour les tailles de problème de la couche MLP de Granite-20B d'IBM WatsonX sur les systèmes NVIDIA DGX A100 et H100, pour diverses configurations de TP.

English

In this paper, we present a novel method that reduces model inference latency during distributed deployment of Large Language Models (LLMs). Our contribution is an optimized inference deployment scheme that address the current limitations of state-of-the-art quantization kernels when used in conjunction with Tensor Parallel (TP). Our method preserves data locality in GPU memory access patterns and exploits a priori knowledge of TP to reduce global communication. We demonstrate an up to 1.81x speedup over existing methods for Llama-70B and up to 1.78x speedup for IBM WatsonX's Granite-20B MLP layer problem sizes on A100 and H100 NVIDIA DGX Systems for a variety of TP settings.

Déquantisation consciente de TP

TP-Aware Dequantization

papers.abstract

Support