ChatPaper.aiChatPaper

LiveMind: 동시 추론을 통한 저지연 대규모 언어 모델

LiveMind: Low-latency Large Language Models with Simultaneous Inference

June 20, 2024
저자: Chuangtao Chen, Grace Li Zhang, Xunzhao Yin, Cheng Zhuo, Ulf Schlichtmann, Bing Li
cs.AI

초록

본 논문에서는 불완전한 프롬프트로도 추론을 수행할 수 있는 대규모 언어 모델(LLM)을 위한 새로운 저지연 추론 프레임워크를 소개한다. 계산 프로세스를 프롬프트 입력 단계로 재배치함으로써 지연 시간을 상당히 줄여 LLM 사용자의 상호작용 경험을 크게 향상시킨다. 이 프레임워크는 스트리밍 프롬프트의 가시성을 모델에 적절히 관리하여, 불완전한 프롬프트로부터 추론하거나 추가 프롬프트를 기다릴 수 있게 한다. 완전한 프롬프트를 사용하는 기존 추론 방법과 비교하여, MMLU-Pro 데이터셋에서 평균 59%의 응답 지연 시간 감소를 달성하면서도 비슷한 정확도를 유지한다. 또한, 이 프레임워크는 다양한 모델 간의 협업 추론 및 출력을 용이하게 한다. LLM을 추론에 사용하고 소규모 언어 모델(SLM)을 출력에 사용함으로써, SLM 기준선 대비 MMLU-Pro 데이터셋에서 평균 68%의 응답 지연 시간 감소와 5.5%의 정확도 향상을 달성한다. 20문장을 초과하는 긴 프롬프트의 경우, 응답 지연 시간을 최대 93%까지 줄일 수 있다.
English
In this paper, we introduce a novel low-latency inference framework for large language models (LLMs) inference which enables LLMs to perform inferences with incomplete prompts. By reallocating computational processes to prompt input phase, we achieve a substantial reduction in latency, thereby significantly enhancing the interactive experience for users of LLMs. The framework adeptly manages the visibility of the streaming prompt to the model, allowing it to infer from incomplete prompts or await additional prompts. Compared with traditional inference methods that utilize complete prompts, our approach demonstrates an average reduction of 59% in response latency on the MMLU-Pro dataset, while maintaining comparable accuracy. Additionally, our framework facilitates collaborative inference and output across different models. By employing an LLM for inference and a small language model (SLM) for output, we achieve an average 68% reduction in response latency, alongside a 5.5% improvement in accuracy on the MMLU-Pro dataset compared with the SLM baseline. For long prompts exceeding 20 sentences, the response latency can be reduced by up to 93%.

Summary

AI-Generated Summary

PDF144December 2, 2024