Accelerazione dell'Inferenza LLM con Decodifica Speculativa a Stadi

Abstract

I recenti progressi nei grandi modelli linguistici (LLM) ne illustrano le diverse capacità. Proponiamo un nuovo algoritmo, il decoding speculativo a stadi, per accelerare l'inferenza degli LLM in scenari con piccoli batch su dispositivi locali. Affrontiamo la bassa intensità aritmetica dell'inferenza con piccoli batch migliorando il lavoro precedente sul decoding speculativo. In primo luogo, ristrutturiamo il batch speculativo come un albero, riducendo i costi di generazione e aumentando il numero atteso di token per batch. In secondo luogo, aggiungiamo una seconda fase di decoding speculativo. Nel complesso, riduciamo la latenza di decoding per singolo batch di 3,16 volte con un modello GPT-2-L da 762 milioni di parametri, preservando perfettamente la qualità dell'output.

English

Recent advances with large language models (LLM) illustrate their diverse capabilities. We propose a novel algorithm, staged speculative decoding, to accelerate LLM inference in small-batch, on-device scenarios. We address the low arithmetic intensity of small-batch inference by improving upon previous work in speculative decoding. First, we restructure the speculative batch as a tree, which reduces generation costs and increases the expected tokens per batch. Second, we add a second stage of speculative decoding. Taken together, we reduce single-batch decoding latency by 3.16x with a 762M parameter GPT-2-L model while perfectly preserving output quality.

Accelerazione dell'Inferenza LLM con Decodifica Speculativa a Stadi

Accelerating LLM Inference with Staged Speculative Decoding

Abstract

Support