ChatPaper.aiChatPaper

LiveMind: Große Sprachmodelle mit geringer Latenz und simultaner Inferenz

LiveMind: Low-latency Large Language Models with Simultaneous Inference

June 20, 2024
Autoren: Chuangtao Chen, Grace Li Zhang, Xunzhao Yin, Cheng Zhuo, Ulf Schlichtmann, Bing Li
cs.AI

Zusammenfassung

In diesem Paper stellen wir ein neuartiges Inferenz-Framework mit geringer Latenz für große Sprachmodelle (LLMs) vor, das es LLMs ermöglicht, Inferenzen mit unvollständigen Eingaben durchzuführen. Durch die Neuzuweisung von Rechenprozessen in die Eingabephase des Prompt erreichen wir eine erhebliche Reduzierung der Latenz, wodurch das interaktive Erlebnis für Benutzer von LLMs signifikant verbessert wird. Das Framework verwaltet geschickt die Sichtbarkeit des kontinuierlichen Eingabeprompt für das Modell, was es ihm ermöglicht, aus unvollständigen Eingaben zu inferieren oder auf zusätzliche Eingaben zu warten. Im Vergleich zu traditionellen Inferenzmethoden, die vollständige Eingaben verwenden, zeigt unser Ansatz eine durchschnittliche Reduzierung der Antwortlatenz um 59% auf dem MMLU-Pro Datensatz, bei gleichbleibender Genauigkeit. Darüber hinaus ermöglicht unser Framework eine kollaborative Inferenz und Ausgabe über verschiedene Modelle hinweg. Durch die Verwendung eines LLMs für die Inferenz und eines kleinen Sprachmodells (SLM) für die Ausgabe erreichen wir eine durchschnittliche Reduzierung der Antwortlatenz um 68%, zusammen mit einer Verbesserung der Genauigkeit um 5,5% auf dem MMLU-Pro Datensatz im Vergleich zum SLM-Baseline. Für lange Eingaben, die 20 Sätze überschreiten, kann die Antwortlatenz um bis zu 93% reduziert werden.
English
In this paper, we introduce a novel low-latency inference framework for large language models (LLMs) inference which enables LLMs to perform inferences with incomplete prompts. By reallocating computational processes to prompt input phase, we achieve a substantial reduction in latency, thereby significantly enhancing the interactive experience for users of LLMs. The framework adeptly manages the visibility of the streaming prompt to the model, allowing it to infer from incomplete prompts or await additional prompts. Compared with traditional inference methods that utilize complete prompts, our approach demonstrates an average reduction of 59% in response latency on the MMLU-Pro dataset, while maintaining comparable accuracy. Additionally, our framework facilitates collaborative inference and output across different models. By employing an LLM for inference and a small language model (SLM) for output, we achieve an average 68% reduction in response latency, alongside a 5.5% improvement in accuracy on the MMLU-Pro dataset compared with the SLM baseline. For long prompts exceeding 20 sentences, the response latency can be reduced by up to 93%.

Summary

AI-Generated Summary

PDF144December 2, 2024