ChatPaper.aiChatPaper

Gedistribueerde Speculatieve Inferentie van Grote Taalmodellen

Distributed Speculative Inference of Large Language Models

May 23, 2024
Auteurs: Nadav Timor, Jonathan Mamou, Daniel Korat, Moshe Berchansky, Oren Pereg, Moshe Wasserblat, Tomer Galanti, Michal Gordon, David Harel
cs.AI

Samenvatting

Het versnellen van de inferentie van grote taalmodellen (LLM's) is een belangrijke uitdaging in de kunstmatige intelligentie. Dit artikel introduceert distributed speculative inference (DSI), een nieuw gedistribueerd inferentie-algoritme dat bewezen sneller is dan speculative inference (SI) [leviathan2023fast, chen2023accelerating, miao2023specinfer] en traditionele autoregressieve inferentie (non-SI). Net als andere SI-algoritmen werkt DSI op bevroren LLM's, vereist het geen training of architectuurwijzigingen, en behoudt het de doelverdeling. Eerdere studies over SI hebben empirische snelheidswinsten aangetoond (vergeleken met non-SI), maar vereisen een snel en nauwkeurig drafter-LLM. In de praktijk hebben kant-en-klare LLM's vaak geen passende drafters die voldoende snel en nauwkeurig zijn. We tonen een kloof aan: SI wordt langzamer dan non-SI bij het gebruik van langzamere of minder nauwkeurige drafters. We sluiten deze kloof door te bewijzen dat DSI sneller is dan zowel SI als non-SI, ongeacht de gebruikte drafters. Door meerdere instanties van het doelmodel en de drafters te coördineren, is DSI niet alleen sneller dan SI, maar ondersteunt het ook LLM's die niet met SI kunnen worden versneld. Onze simulaties tonen snelheidswinsten aan van kant-en-klare LLM's in realistische omgevingen: DSI is 1,29-1,92x sneller dan SI.
English
Accelerating the inference of large language models (LLMs) is an important challenge in artificial intelligence. This paper introduces distributed speculative inference (DSI), a novel distributed inference algorithm that is provably faster than speculative inference (SI) [leviathan2023fast, chen2023accelerating, miao2023specinfer] and traditional autoregressive inference (non-SI). Like other SI algorithms, DSI works on frozen LLMs, requiring no training or architectural modifications, and it preserves the target distribution. Prior studies on SI have demonstrated empirical speedups (compared to non-SI) but require a fast and accurate drafter LLM. In practice, off-the-shelf LLMs often do not have matching drafters that are sufficiently fast and accurate. We show a gap: SI gets slower than non-SI when using slower or less accurate drafters. We close this gap by proving that DSI is faster than both SI and non-SI given any drafters. By orchestrating multiple instances of the target and drafters, DSI is not only faster than SI but also supports LLMs that cannot be accelerated with SI. Our simulations show speedups of off-the-shelf LLMs in realistic settings: DSI is 1.29-1.92x faster than SI.
PDF180February 8, 2026