Beschleunigung der LLM-Inferenz durch gestufte spekulative Dekodierung
Accelerating LLM Inference with Staged Speculative Decoding
August 8, 2023
papers.authors: Benjamin Spector, Chris Re
cs.AI
papers.abstract
Jüngste Fortschritte bei großen Sprachmodellen (LLM) verdeutlichen deren vielfältige Fähigkeiten. Wir schlagen einen neuartigen Algorithmus vor, das gestufte spekulative Decodieren, um die Inferenz von LLM in Szenarien mit kleinen Batch-Größen und auf Endgeräten zu beschleunigen. Wir adressieren die geringe arithmetische Intensität der Inferenz mit kleinen Batch-Größen, indem wir frühere Arbeiten zum spekulativen Decodieren verbessern. Zunächst strukturieren wir den spekulativen Batch als Baum um, was die Generierungskosten reduziert und die erwarteten Tokens pro Batch erhöht. Zweitens fügen wir eine zweite Stufe des spekulativen Decodierens hinzu. Zusammengenommen reduzieren wir die Latenz beim Decodieren eines einzelnen Batches um das 3,16-fache bei einem GPT-2-L-Modell mit 762M Parametern, während die Ausgabequalität perfekt erhalten bleibt.
English
Recent advances with large language models (LLM) illustrate their diverse
capabilities. We propose a novel algorithm, staged speculative decoding, to
accelerate LLM inference in small-batch, on-device scenarios. We address the
low arithmetic intensity of small-batch inference by improving upon previous
work in speculative decoding. First, we restructure the speculative batch as a
tree, which reduces generation costs and increases the expected tokens per
batch. Second, we add a second stage of speculative decoding. Taken together,
we reduce single-batch decoding latency by 3.16x with a 762M parameter GPT-2-L
model while perfectly preserving output quality.