TP-Bewuste Dequantisatie

Samenvatting

In dit artikel presenteren we een nieuwe methode die de inferentielatentie van modellen vermindert tijdens de gedistribueerde implementatie van Large Language Models (LLMs). Onze bijdrage is een geoptimaliseerd inferentie-implementatieschema dat de huidige beperkingen van state-of-the-art kwantiseringskernen aanpakt wanneer deze in combinatie met Tensor Parallel (TP) worden gebruikt. Onze methode behoudt de gegevenslocatie in GPU-geheugentoegangspatronen en benut a priori kennis van TP om de globale communicatie te verminderen. We demonstreren een versnelling tot 1,81x ten opzichte van bestaande methoden voor Llama-70B en tot 1,78x voor IBM WatsonX's Granite-20B MLP-laagprobleemgroottes op A100- en H100 NVIDIA DGX-systemen voor diverse TP-instellingen.

English

In this paper, we present a novel method that reduces model inference latency during distributed deployment of Large Language Models (LLMs). Our contribution is an optimized inference deployment scheme that address the current limitations of state-of-the-art quantization kernels when used in conjunction with Tensor Parallel (TP). Our method preserves data locality in GPU memory access patterns and exploits a priori knowledge of TP to reduce global communication. We demonstrate an up to 1.81x speedup over existing methods for Llama-70B and up to 1.78x speedup for IBM WatsonX's Granite-20B MLP layer problem sizes on A100 and H100 NVIDIA DGX Systems for a variety of TP settings.

TP-Bewuste Dequantisatie

TP-Aware Dequantization

Samenvatting

Support