Descuantización Consciente de TP

Resumen

En este artículo, presentamos un método novedoso que reduce la latencia de inferencia del modelo durante el despliegue distribuido de Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). Nuestra contribución es un esquema de despliegue de inferencia optimizado que aborda las limitaciones actuales de los núcleos de cuantización de última generación cuando se utilizan junto con Paralelismo de Tensores (TP, por sus siglas en inglés). Nuestro método preserva la localidad de los datos en los patrones de acceso a la memoria de la GPU y aprovecha el conocimiento a priori del TP para reducir la comunicación global. Demostramos una aceleración de hasta 1.81x sobre los métodos existentes para Llama-70B y hasta 1.78x para los tamaños de problema de la capa MLP de Granite-20B de IBM WatsonX en sistemas NVIDIA DGX A100 y H100 para una variedad de configuraciones de TP.

English

In this paper, we present a novel method that reduces model inference latency during distributed deployment of Large Language Models (LLMs). Our contribution is an optimized inference deployment scheme that address the current limitations of state-of-the-art quantization kernels when used in conjunction with Tensor Parallel (TP). Our method preserves data locality in GPU memory access patterns and exploits a priori knowledge of TP to reduce global communication. We demonstrate an up to 1.81x speedup over existing methods for Llama-70B and up to 1.78x speedup for IBM WatsonX's Granite-20B MLP layer problem sizes on A100 and H100 NVIDIA DGX Systems for a variety of TP settings.

Descuantización Consciente de TP

TP-Aware Dequantization

Resumen

Support