Aceleración de la Inferencia de LLM mediante Decodificación Especulativa por Etapas
Accelerating LLM Inference with Staged Speculative Decoding
August 8, 2023
Autores: Benjamin Spector, Chris Re
cs.AI
Resumen
Los avances recientes con los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) ilustran sus diversas capacidades. Proponemos un algoritmo novedoso, el decodificado especulativo por etapas, para acelerar la inferencia de LLM en escenarios de pequeños lotes y en dispositivos locales. Abordamos la baja intensidad aritmética de la inferencia en pequeños lotes mejorando trabajos previos en decodificado especulativo. Primero, reestructuramos el lote especulativo como un árbol, lo que reduce los costos de generación y aumenta el número esperado de tokens por lote. Segundo, añadimos una segunda etapa de decodificado especulativo. En conjunto, reducimos la latencia de decodificación de un solo lote en 3.16x con un modelo GPT-2-L de 762 millones de parámetros, preservando perfectamente la calidad de la salida.
English
Recent advances with large language models (LLM) illustrate their diverse
capabilities. We propose a novel algorithm, staged speculative decoding, to
accelerate LLM inference in small-batch, on-device scenarios. We address the
low arithmetic intensity of small-batch inference by improving upon previous
work in speculative decoding. First, we restructure the speculative batch as a
tree, which reduces generation costs and increases the expected tokens per
batch. Second, we add a second stage of speculative decoding. Taken together,
we reduce single-batch decoding latency by 3.16x with a 762M parameter GPT-2-L
model while perfectly preserving output quality.