Dequantizzazione Consapevole di TP
TP-Aware Dequantization
January 15, 2024
Autori: Adnan Hoque, Mudhakar Srivatsa, Chih-Chieh Yang, Raghu Ganti
cs.AI
Abstract
In questo articolo, presentiamo un metodo innovativo che riduce la latenza di inferenza del modello durante il deployment distribuito di Large Language Models (LLM). Il nostro contributo è uno schema di inferenza ottimizzato che affronta le attuali limitazioni dei kernel di quantizzazione all'avanguardia quando utilizzati in combinazione con il Tensor Parallel (TP). Il nostro metodo preserva la località dei dati nei pattern di accesso alla memoria GPU e sfrutta la conoscenza a priori del TP per ridurre la comunicazione globale. Dimostriamo un miglioramento fino a 1,81x rispetto ai metodi esistenti per Llama-70B e fino a 1,78x per le dimensioni del problema dello strato MLP di Granite-20B di IBM WatsonX su sistemi NVIDIA DGX A100 e H100, per una varietà di configurazioni TP.
English
In this paper, we present a novel method that reduces model inference latency
during distributed deployment of Large Language Models (LLMs). Our contribution
is an optimized inference deployment scheme that address the current
limitations of state-of-the-art quantization kernels when used in conjunction
with Tensor Parallel (TP). Our method preserves data locality in GPU memory
access patterns and exploits a priori knowledge of TP to reduce global
communication. We demonstrate an up to 1.81x speedup over existing methods for
Llama-70B and up to 1.78x speedup for IBM WatsonX's Granite-20B MLP layer
problem sizes on A100 and H100 NVIDIA DGX Systems for a variety of TP settings.