TP-Bewuste Dequantisatie
TP-Aware Dequantization
January 15, 2024
Auteurs: Adnan Hoque, Mudhakar Srivatsa, Chih-Chieh Yang, Raghu Ganti
cs.AI
Samenvatting
In dit artikel presenteren we een nieuwe methode die de inferentielatentie van modellen vermindert tijdens de gedistribueerde implementatie van Large Language Models (LLMs). Onze bijdrage is een geoptimaliseerd inferentie-implementatieschema dat de huidige beperkingen van state-of-the-art kwantiseringskernen aanpakt wanneer deze in combinatie met Tensor Parallel (TP) worden gebruikt. Onze methode behoudt de gegevenslocatie in GPU-geheugentoegangspatronen en benut a priori kennis van TP om de globale communicatie te verminderen. We demonstreren een versnelling tot 1,81x ten opzichte van bestaande methoden voor Llama-70B en tot 1,78x voor IBM WatsonX's Granite-20B MLP-laagprobleemgroottes op A100- en H100 NVIDIA DGX-systemen voor diverse TP-instellingen.
English
In this paper, we present a novel method that reduces model inference latency
during distributed deployment of Large Language Models (LLMs). Our contribution
is an optimized inference deployment scheme that address the current
limitations of state-of-the-art quantization kernels when used in conjunction
with Tensor Parallel (TP). Our method preserves data locality in GPU memory
access patterns and exploits a priori knowledge of TP to reduce global
communication. We demonstrate an up to 1.81x speedup over existing methods for
Llama-70B and up to 1.78x speedup for IBM WatsonX's Granite-20B MLP layer
problem sizes on A100 and H100 NVIDIA DGX Systems for a variety of TP settings.