TP-bewusste Dequantisierung

papers.abstract

In diesem Artikel präsentieren wir eine neuartige Methode, die die Inferenzlatenz von Modellen bei der verteilten Bereitstellung von Large Language Models (LLMs) reduziert. Unser Beitrag ist ein optimiertes Inferenzbereitstellungsschema, das die aktuellen Einschränkungen von state-of-the-art Quantisierungskernen in Kombination mit Tensor Parallelism (TP) adressiert. Unsere Methode bewahrt die Datenlokalität in GPU-Speicherzugriffsmustern und nutzt a priori Wissen über TP, um die globale Kommunikation zu reduzieren. Wir zeigen eine Beschleunigung von bis zu 1,81x gegenüber bestehenden Methoden für Llama-70B und bis zu 1,78x für die MLP-Schichtproblemgrößen von IBM WatsonX's Granite-20B auf A100- und H100-NVIDIA-DGX-Systemen für verschiedene TP-Einstellungen.

English

In this paper, we present a novel method that reduces model inference latency during distributed deployment of Large Language Models (LLMs). Our contribution is an optimized inference deployment scheme that address the current limitations of state-of-the-art quantization kernels when used in conjunction with Tensor Parallel (TP). Our method preserves data locality in GPU memory access patterns and exploits a priori knowledge of TP to reduce global communication. We demonstrate an up to 1.81x speedup over existing methods for Llama-70B and up to 1.78x speedup for IBM WatsonX's Granite-20B MLP layer problem sizes on A100 and H100 NVIDIA DGX Systems for a variety of TP settings.

TP-bewusste Dequantisierung

TP-Aware Dequantization

papers.abstract

Support