Descuantización Consciente de TP
TP-Aware Dequantization
January 15, 2024
Autores: Adnan Hoque, Mudhakar Srivatsa, Chih-Chieh Yang, Raghu Ganti
cs.AI
Resumen
En este artículo, presentamos un método novedoso que reduce la latencia de inferencia del modelo durante el despliegue distribuido de Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). Nuestra contribución es un esquema de despliegue de inferencia optimizado que aborda las limitaciones actuales de los núcleos de cuantización de última generación cuando se utilizan junto con Paralelismo de Tensores (TP, por sus siglas en inglés). Nuestro método preserva la localidad de los datos en los patrones de acceso a la memoria de la GPU y aprovecha el conocimiento a priori del TP para reducir la comunicación global. Demostramos una aceleración de hasta 1.81x sobre los métodos existentes para Llama-70B y hasta 1.78x para los tamaños de problema de la capa MLP de Granite-20B de IBM WatsonX en sistemas NVIDIA DGX A100 y H100 para una variedad de configuraciones de TP.
English
In this paper, we present a novel method that reduces model inference latency
during distributed deployment of Large Language Models (LLMs). Our contribution
is an optimized inference deployment scheme that address the current
limitations of state-of-the-art quantization kernels when used in conjunction
with Tensor Parallel (TP). Our method preserves data locality in GPU memory
access patterns and exploits a priori knowledge of TP to reduce global
communication. We demonstrate an up to 1.81x speedup over existing methods for
Llama-70B and up to 1.78x speedup for IBM WatsonX's Granite-20B MLP layer
problem sizes on A100 and H100 NVIDIA DGX Systems for a variety of TP settings.