ChatPaper.aiChatPaper

LiveMind: 同時推論を実現する低遅延大規模言語モデル

LiveMind: Low-latency Large Language Models with Simultaneous Inference

June 20, 2024
著者: Chuangtao Chen, Grace Li Zhang, Xunzhao Yin, Cheng Zhuo, Ulf Schlichtmann, Bing Li
cs.AI

要旨

本論文では、不完全なプロンプトでも推論を可能にする新しい低遅延推論フレームワークを大規模言語モデル(LLM)向けに提案する。計算プロセスをプロンプト入力段階に再配置することで、遅延を大幅に削減し、LLMユーザーのインタラクティブ体験を著しく向上させる。本フレームワークは、ストリーミングプロンプトの可視性を巧みに管理し、不完全なプロンプトから推論を行ったり、追加のプロンプトを待機したりすることができる。完全なプロンプトを利用する従来の推論手法と比較して、MMLU-Proデータセットにおいて平均59%の応答遅延削減を達成しつつ、同等の精度を維持している。さらに、本フレームワークは異なるモデル間での協調推論と出力を可能にする。LLMを推論に、小型言語モデル(SLM)を出力に用いることで、SLMベースラインと比較してMMLU-Proデータセットにおいて平均68%の応答遅延削減と5.5%の精度向上を実現した。20文を超える長いプロンプトでは、応答遅延を最大93%削減できる。
English
In this paper, we introduce a novel low-latency inference framework for large language models (LLMs) inference which enables LLMs to perform inferences with incomplete prompts. By reallocating computational processes to prompt input phase, we achieve a substantial reduction in latency, thereby significantly enhancing the interactive experience for users of LLMs. The framework adeptly manages the visibility of the streaming prompt to the model, allowing it to infer from incomplete prompts or await additional prompts. Compared with traditional inference methods that utilize complete prompts, our approach demonstrates an average reduction of 59% in response latency on the MMLU-Pro dataset, while maintaining comparable accuracy. Additionally, our framework facilitates collaborative inference and output across different models. By employing an LLM for inference and a small language model (SLM) for output, we achieve an average 68% reduction in response latency, alongside a 5.5% improvement in accuracy on the MMLU-Pro dataset compared with the SLM baseline. For long prompts exceeding 20 sentences, the response latency can be reduced by up to 93%.

Summary

AI-Generated Summary

PDF144December 2, 2024