ТП-осознанная деквантование
TP-Aware Dequantization
January 15, 2024
Авторы: Adnan Hoque, Mudhakar Srivatsa, Chih-Chieh Yang, Raghu Ganti
cs.AI
Аннотация
В данной статье мы представляем новый метод, который снижает задержку вывода модели при распределенном развертывании крупных языковых моделей (LLM). Наш вклад заключается в оптимизированной схеме развертывания вывода, которая устраняет текущие ограничения современных квантующих ядер при использовании в сочетании с тензорным параллелизмом (TP). Наш метод сохраняет локальность данных в шаблонах доступа к памяти GPU и использует априорные знания о TP для сокращения глобальной коммуникации. Мы демонстрируем ускорение до 1,81 раза по сравнению с существующими методами для модели Llama-70B и до 1,78 раза для задачи MLP-слоя модели Granite-20B от IBM WatsonX на системах NVIDIA DGX с GPU A100 и H100 для различных настроек TP.
English
In this paper, we present a novel method that reduces model inference latency
during distributed deployment of Large Language Models (LLMs). Our contribution
is an optimized inference deployment scheme that address the current
limitations of state-of-the-art quantization kernels when used in conjunction
with Tensor Parallel (TP). Our method preserves data locality in GPU memory
access patterns and exploits a priori knowledge of TP to reduce global
communication. We demonstrate an up to 1.81x speedup over existing methods for
Llama-70B and up to 1.78x speedup for IBM WatsonX's Granite-20B MLP layer
problem sizes on A100 and H100 NVIDIA DGX Systems for a variety of TP settings.