Acelerando a Inferência de LLMs com Decodificação Especulativa em Estágios
Accelerating LLM Inference with Staged Speculative Decoding
August 8, 2023
Autores: Benjamin Spector, Chris Re
cs.AI
Resumo
Os recentes avanços com modelos de linguagem de grande escala (LLM) ilustram suas diversas capacidades. Propomos um novo algoritmo, a decodificação especulativa em estágios, para acelerar a inferência de LLM em cenários de pequenos lotes e em dispositivos locais. Abordamos a baixa intensidade aritmética da inferência em pequenos lotes aprimorando trabalhos anteriores em decodificação especulativa. Primeiro, reestruturamos o lote especulativo como uma árvore, o que reduz os custos de geração e aumenta o número esperado de tokens por lote. Segundo, adicionamos um segundo estágio de decodificação especulativa. Em conjunto, reduzimos a latência de decodificação de um único lote em 3,16x com um modelo GPT-2-L de 762M de parâmetros, preservando perfeitamente a qualidade da saída.
English
Recent advances with large language models (LLM) illustrate their diverse
capabilities. We propose a novel algorithm, staged speculative decoding, to
accelerate LLM inference in small-batch, on-device scenarios. We address the
low arithmetic intensity of small-batch inference by improving upon previous
work in speculative decoding. First, we restructure the speculative batch as a
tree, which reduces generation costs and increases the expected tokens per
batch. Second, we add a second stage of speculative decoding. Taken together,
we reduce single-batch decoding latency by 3.16x with a 762M parameter GPT-2-L
model while perfectly preserving output quality.