Acelerando a Inferência de LLMs com Decodificação Especulativa em Estágios

Resumo

Os recentes avanços com modelos de linguagem de grande escala (LLM) ilustram suas diversas capacidades. Propomos um novo algoritmo, a decodificação especulativa em estágios, para acelerar a inferência de LLM em cenários de pequenos lotes e em dispositivos locais. Abordamos a baixa intensidade aritmética da inferência em pequenos lotes aprimorando trabalhos anteriores em decodificação especulativa. Primeiro, reestruturamos o lote especulativo como uma árvore, o que reduz os custos de geração e aumenta o número esperado de tokens por lote. Segundo, adicionamos um segundo estágio de decodificação especulativa. Em conjunto, reduzimos a latência de decodificação de um único lote em 3,16x com um modelo GPT-2-L de 762M de parâmetros, preservando perfeitamente a qualidade da saída.

English

Recent advances with large language models (LLM) illustrate their diverse capabilities. We propose a novel algorithm, staged speculative decoding, to accelerate LLM inference in small-batch, on-device scenarios. We address the low arithmetic intensity of small-batch inference by improving upon previous work in speculative decoding. First, we restructure the speculative batch as a tree, which reduces generation costs and increases the expected tokens per batch. Second, we add a second stage of speculative decoding. Taken together, we reduce single-batch decoding latency by 3.16x with a 762M parameter GPT-2-L model while perfectly preserving output quality.

Acelerando a Inferência de LLMs com Decodificação Especulativa em Estágios

Accelerating LLM Inference with Staged Speculative Decoding

Resumo

Support