TP-bewusste Dequantisierung
TP-Aware Dequantization
January 15, 2024
Autoren: Adnan Hoque, Mudhakar Srivatsa, Chih-Chieh Yang, Raghu Ganti
cs.AI
Zusammenfassung
In diesem Artikel präsentieren wir eine neuartige Methode, die die Inferenzlatenz von Modellen bei der verteilten Bereitstellung von Large Language Models (LLMs) reduziert. Unser Beitrag ist ein optimiertes Inferenzbereitstellungsschema, das die aktuellen Einschränkungen von state-of-the-art Quantisierungskernen in Kombination mit Tensor Parallelism (TP) adressiert. Unsere Methode bewahrt die Datenlokalität in GPU-Speicherzugriffsmustern und nutzt a priori Wissen über TP, um die globale Kommunikation zu reduzieren. Wir zeigen eine Beschleunigung von bis zu 1,81x gegenüber bestehenden Methoden für Llama-70B und bis zu 1,78x für die MLP-Schichtproblemgrößen von IBM WatsonX's Granite-20B auf A100- und H100-NVIDIA-DGX-Systemen für verschiedene TP-Einstellungen.
English
In this paper, we present a novel method that reduces model inference latency
during distributed deployment of Large Language Models (LLMs). Our contribution
is an optimized inference deployment scheme that address the current
limitations of state-of-the-art quantization kernels when used in conjunction
with Tensor Parallel (TP). Our method preserves data locality in GPU memory
access patterns and exploits a priori knowledge of TP to reduce global
communication. We demonstrate an up to 1.81x speedup over existing methods for
Llama-70B and up to 1.78x speedup for IBM WatsonX's Granite-20B MLP layer
problem sizes on A100 and H100 NVIDIA DGX Systems for a variety of TP settings.