Desquantização Consciente de TP
TP-Aware Dequantization
January 15, 2024
Autores: Adnan Hoque, Mudhakar Srivatsa, Chih-Chieh Yang, Raghu Ganti
cs.AI
Resumo
Neste artigo, apresentamos um método inovador que reduz a latência de inferência de modelos durante a implantação distribuída de Modelos de Linguagem de Grande Escala (LLMs). Nossa contribuição é um esquema de implantação de inferência otimizado que aborda as limitações atuais dos kernels de quantização state-of-the-art quando usados em conjunto com Paralelismo de Tensores (TP). Nosso método preserva a localidade dos dados nos padrões de acesso à memória da GPU e explora conhecimento a priori do TP para reduzir a comunicação global. Demonstramos um aumento de velocidade de até 1,81x em relação aos métodos existentes para o Llama-70B e de até 1,78x para os tamanhos de problemas da camada MLP do Granite-20B da IBM WatsonX em sistemas NVIDIA DGX A100 e H100, para uma variedade de configurações de TP.
English
In this paper, we present a novel method that reduces model inference latency
during distributed deployment of Large Language Models (LLMs). Our contribution
is an optimized inference deployment scheme that address the current
limitations of state-of-the-art quantization kernels when used in conjunction
with Tensor Parallel (TP). Our method preserves data locality in GPU memory
access patterns and exploits a priori knowledge of TP to reduce global
communication. We demonstrate an up to 1.81x speedup over existing methods for
Llama-70B and up to 1.78x speedup for IBM WatsonX's Granite-20B MLP layer
problem sizes on A100 and H100 NVIDIA DGX Systems for a variety of TP settings.