ChatPaper.aiChatPaper

Verteilte spekulative Inferenz großer Sprachmodelle

Distributed Speculative Inference of Large Language Models

May 23, 2024
papers.authors: Nadav Timor, Jonathan Mamou, Daniel Korat, Moshe Berchansky, Oren Pereg, Moshe Wasserblat, Tomer Galanti, Michal Gordon, David Harel
cs.AI

papers.abstract

Die Beschleunigung der Inferenz großer Sprachmodelle (LLMs) ist eine wichtige Herausforderung in der künstlichen Intelligenz. Dieses Papier stellt das verteilte spekulative Inferenzverfahren (DSI) vor, einen neuartigen verteilten Inferenzalgorithmus, der nachweislich schneller ist als das spekulative Inferenzverfahren (SI) [leviathan2023fast, chen2023accelerating, miao2023specinfer] und das traditionelle autoregressive Inferenzverfahren (nicht-SI). Ähnlich wie andere SI-Algorithmen arbeitet DSI mit eingefrorenen LLMs, erfordert keine Schulung oder architektonische Modifikationen und erhält die Zielverteilung. Frühere Studien zum SI haben empirische Beschleunigungen gezeigt (im Vergleich zu nicht-SI), erfordern jedoch ein schnelles und genaues Entwurfs-LLM. In der Praxis haben Standard-LLMs oft keine passenden Entwürfe, die ausreichend schnell und genau sind. Wir zeigen eine Lücke: SI wird langsamer als nicht-SI, wenn langsamere oder weniger genaue Entwürfe verwendet werden. Wir schließen diese Lücke, indem wir nachweisen, dass DSI schneller ist als sowohl SI als auch nicht-SI bei Verwendung beliebiger Entwürfe. Durch die Orchestrierung mehrerer Instanzen des Ziel- und Entwurfs-LLMs ist DSI nicht nur schneller als SI, sondern unterstützt auch LLMs, die mit SI nicht beschleunigt werden können. Unsere Simulationen zeigen Beschleunigungen von Standard-LLMs in realistischen Szenarien: DSI ist 1,29-1,92-mal schneller als SI.
English
Accelerating the inference of large language models (LLMs) is an important challenge in artificial intelligence. This paper introduces distributed speculative inference (DSI), a novel distributed inference algorithm that is provably faster than speculative inference (SI) [leviathan2023fast, chen2023accelerating, miao2023specinfer] and traditional autoregressive inference (non-SI). Like other SI algorithms, DSI works on frozen LLMs, requiring no training or architectural modifications, and it preserves the target distribution. Prior studies on SI have demonstrated empirical speedups (compared to non-SI) but require a fast and accurate drafter LLM. In practice, off-the-shelf LLMs often do not have matching drafters that are sufficiently fast and accurate. We show a gap: SI gets slower than non-SI when using slower or less accurate drafters. We close this gap by proving that DSI is faster than both SI and non-SI given any drafters. By orchestrating multiple instances of the target and drafters, DSI is not only faster than SI but also supports LLMs that cannot be accelerated with SI. Our simulations show speedups of off-the-shelf LLMs in realistic settings: DSI is 1.29-1.92x faster than SI.
PDF190December 15, 2024