Dequantizzazione Consapevole di TP

Abstract

In questo articolo, presentiamo un metodo innovativo che riduce la latenza di inferenza del modello durante il deployment distribuito di Large Language Models (LLM). Il nostro contributo è uno schema di inferenza ottimizzato che affronta le attuali limitazioni dei kernel di quantizzazione all'avanguardia quando utilizzati in combinazione con il Tensor Parallel (TP). Il nostro metodo preserva la località dei dati nei pattern di accesso alla memoria GPU e sfrutta la conoscenza a priori del TP per ridurre la comunicazione globale. Dimostriamo un miglioramento fino a 1,81x rispetto ai metodi esistenti per Llama-70B e fino a 1,78x per le dimensioni del problema dello strato MLP di Granite-20B di IBM WatsonX su sistemi NVIDIA DGX A100 e H100, per una varietà di configurazioni TP.

English

In this paper, we present a novel method that reduces model inference latency during distributed deployment of Large Language Models (LLMs). Our contribution is an optimized inference deployment scheme that address the current limitations of state-of-the-art quantization kernels when used in conjunction with Tensor Parallel (TP). Our method preserves data locality in GPU memory access patterns and exploits a priori knowledge of TP to reduce global communication. We demonstrate an up to 1.81x speedup over existing methods for Llama-70B and up to 1.78x speedup for IBM WatsonX's Granite-20B MLP layer problem sizes on A100 and H100 NVIDIA DGX Systems for a variety of TP settings.

Dequantizzazione Consapevole di TP

TP-Aware Dequantization

Abstract

Support