Het versnellen van LLM-inferentie met gefaseerde speculatieve decodering

Samenvatting

Recente ontwikkelingen met grote taalmodellen (LLM) illustreren hun diverse mogelijkheden. Wij stellen een nieuw algoritme voor, gefaseerde speculatieve decodering, om LLM-inferentie te versnellen in scenario's met kleine batches en op apparaten. We pakken de lage rekenintensiteit van inferentie met kleine batches aan door voort te bouwen op eerder werk in speculatieve decodering. Ten eerste herstructureren we de speculatieve batch als een boom, wat de generatiekosten verlaagt en het verwachte aantal tokens per batch verhoogt. Ten tweede voegen we een tweede fase van speculatieve decodering toe. Samen verminderen we de latentie van decodering in een enkele batch met 3,16x bij een GPT-2-L-model met 762M parameters, terwijl de uitvoerkwaliteit perfect behouden blijft.

English

Recent advances with large language models (LLM) illustrate their diverse capabilities. We propose a novel algorithm, staged speculative decoding, to accelerate LLM inference in small-batch, on-device scenarios. We address the low arithmetic intensity of small-batch inference by improving upon previous work in speculative decoding. First, we restructure the speculative batch as a tree, which reduces generation costs and increases the expected tokens per batch. Second, we add a second stage of speculative decoding. Taken together, we reduce single-batch decoding latency by 3.16x with a 762M parameter GPT-2-L model while perfectly preserving output quality.

Het versnellen van LLM-inferentie met gefaseerde speculatieve decodering

Accelerating LLM Inference with Staged Speculative Decoding

Samenvatting

Support