TP-인식 디양자화
TP-Aware Dequantization
January 15, 2024
저자: Adnan Hoque, Mudhakar Srivatsa, Chih-Chieh Yang, Raghu Ganti
cs.AI
초록
본 논문에서는 대규모 언어 모델(LLM)의 분산 배포 시 모델 추론 지연 시간을 줄이는 새로운 방법을 제안한다. 우리의 기여는 텐서 병렬 처리(TP)와 함께 사용될 때 최신 양자화 커널의 현재 한계를 해결하는 최적화된 추론 배포 방식을 제시하는 것이다. 우리의 방법은 GPU 메모리 접근 패턴에서 데이터 지역성을 유지하고 TP에 대한 사전 지식을 활용하여 글로벌 통신을 줄인다. A100 및 H100 NVIDIA DGX 시스템에서 다양한 TP 설정에 대해 Llama-70B의 경우 기존 방법 대비 최대 1.81배, IBM WatsonX의 Granite-20B MLP 레이어 문제 크기에 대해 최대 1.78배의 속도 향상을 입증하였다.
English
In this paper, we present a novel method that reduces model inference latency
during distributed deployment of Large Language Models (LLMs). Our contribution
is an optimized inference deployment scheme that address the current
limitations of state-of-the-art quantization kernels when used in conjunction
with Tensor Parallel (TP). Our method preserves data locality in GPU memory
access patterns and exploits a priori knowledge of TP to reduce global
communication. We demonstrate an up to 1.81x speedup over existing methods for
Llama-70B and up to 1.78x speedup for IBM WatsonX's Granite-20B MLP layer
problem sizes on A100 and H100 NVIDIA DGX Systems for a variety of TP settings.