LiveMind: Grote Taalmodellen met lage latentie en gelijktijdige inferentie
LiveMind: Low-latency Large Language Models with Simultaneous Inference
June 20, 2024
Auteurs: Chuangtao Chen, Grace Li Zhang, Xunzhao Yin, Cheng Zhuo, Ulf Schlichtmann, Bing Li
cs.AI
Samenvatting
In dit artikel introduceren we een nieuw low-latency inferentiekader voor grote taalmodelinferentie (LLMs) dat LLMs in staat stelt inferenties uit te voeren met onvolledige prompts. Door rekenprocessen te herverdelen naar de promptinvoerfase, bereiken we een aanzienlijke vermindering van de latentie, waardoor de interactieve ervaring voor gebruikers van LLMs aanzienlijk wordt verbeterd. Het kader beheert op bekwame wijze de zichtbaarheid van de streaming prompt voor het model, waardoor het kan afleiden uit onvolledige prompts of kan wachten op aanvullende prompts. In vergelijking met traditionele inferentiemethoden die gebruikmaken van volledige prompts, toont onze aanpak een gemiddelde vermindering van 59% in responslatentie op de MMLU-Pro dataset, terwijl een vergelijkbare nauwkeurigheid wordt behouden. Daarnaast vergemakkelijkt ons kader collaboratieve inferentie en output over verschillende modellen. Door een LLM te gebruiken voor inferentie en een klein taalmodel (SLM) voor output, bereiken we een gemiddelde vermindering van 68% in responslatentie, naast een verbetering van 5,5% in nauwkeurigheid op de MMLU-Pro dataset in vergelijking met de SLM-basislijn. Voor lange prompts van meer dan 20 zinnen kan de responslatentie met maximaal 93% worden verminderd.
English
In this paper, we introduce a novel low-latency inference framework for large
language models (LLMs) inference which enables LLMs to perform inferences with
incomplete prompts. By reallocating computational processes to prompt input
phase, we achieve a substantial reduction in latency, thereby significantly
enhancing the interactive experience for users of LLMs. The framework adeptly
manages the visibility of the streaming prompt to the model, allowing it to
infer from incomplete prompts or await additional prompts. Compared with
traditional inference methods that utilize complete prompts, our approach
demonstrates an average reduction of 59% in response latency on the MMLU-Pro
dataset, while maintaining comparable accuracy. Additionally, our framework
facilitates collaborative inference and output across different models. By
employing an LLM for inference and a small language model (SLM) for output, we
achieve an average 68% reduction in response latency, alongside a 5.5%
improvement in accuracy on the MMLU-Pro dataset compared with the SLM baseline.
For long prompts exceeding 20 sentences, the response latency can be reduced by
up to 93%.