LiveMind: 동시 추론을 통한 저지연 대규모 언어 모델
LiveMind: Low-latency Large Language Models with Simultaneous Inference
June 20, 2024
저자: Chuangtao Chen, Grace Li Zhang, Xunzhao Yin, Cheng Zhuo, Ulf Schlichtmann, Bing Li
cs.AI
초록
본 논문에서는 불완전한 프롬프트로도 추론을 수행할 수 있는 대규모 언어 모델(LLM)을 위한 새로운 저지연 추론 프레임워크를 소개한다. 계산 프로세스를 프롬프트 입력 단계로 재배치함으로써 지연 시간을 상당히 줄여 LLM 사용자의 상호작용 경험을 크게 향상시킨다. 이 프레임워크는 스트리밍 프롬프트의 가시성을 모델에 적절히 관리하여, 불완전한 프롬프트로부터 추론하거나 추가 프롬프트를 기다릴 수 있게 한다. 완전한 프롬프트를 사용하는 기존 추론 방법과 비교하여, MMLU-Pro 데이터셋에서 평균 59%의 응답 지연 시간 감소를 달성하면서도 비슷한 정확도를 유지한다. 또한, 이 프레임워크는 다양한 모델 간의 협업 추론 및 출력을 용이하게 한다. LLM을 추론에 사용하고 소규모 언어 모델(SLM)을 출력에 사용함으로써, SLM 기준선 대비 MMLU-Pro 데이터셋에서 평균 68%의 응답 지연 시간 감소와 5.5%의 정확도 향상을 달성한다. 20문장을 초과하는 긴 프롬프트의 경우, 응답 지연 시간을 최대 93%까지 줄일 수 있다.
English
In this paper, we introduce a novel low-latency inference framework for large
language models (LLMs) inference which enables LLMs to perform inferences with
incomplete prompts. By reallocating computational processes to prompt input
phase, we achieve a substantial reduction in latency, thereby significantly
enhancing the interactive experience for users of LLMs. The framework adeptly
manages the visibility of the streaming prompt to the model, allowing it to
infer from incomplete prompts or await additional prompts. Compared with
traditional inference methods that utilize complete prompts, our approach
demonstrates an average reduction of 59% in response latency on the MMLU-Pro
dataset, while maintaining comparable accuracy. Additionally, our framework
facilitates collaborative inference and output across different models. By
employing an LLM for inference and a small language model (SLM) for output, we
achieve an average 68% reduction in response latency, alongside a 5.5%
improvement in accuracy on the MMLU-Pro dataset compared with the SLM baseline.
For long prompts exceeding 20 sentences, the response latency can be reduced by
up to 93%.Summary
AI-Generated Summary