EAGLE: El muestreo especulativo requiere reconsiderar la incertidumbre de las características
EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty
January 26, 2024
Autores: Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang
cs.AI
Resumen
La decodificación auto-regresiva hace que la inferencia de los Modelos de Lenguaje de Gran Escala (LLMs) sea lenta. Proponemos un marco simple, EAGLE (Algoritmo de Extrapolación para una Mayor Eficiencia en Modelos de Lenguaje), para una aceleración sin pérdidas. A diferencia de los métodos tradicionales de muestreo especulativo, EAGLE opera el proceso de borrador de manera auto-regresiva en el nivel de características más regular (segunda capa superior) y aborda los problemas de incertidumbre en el muestreo en la predicción de la siguiente característica mediante la integración de tokens de un paso de tiempo adelante. La aceleración proporcionada por EAGLE es sin pérdidas: no implica ajuste fino del LLM objetivo, y el texto generado mantiene la misma distribución que la decodificación auto-regresiva convencional. Al momento de la presentación de este artículo, EAGLE es el marco más rápido conocido dentro de la familia de muestreo especulativo. En MT-bench, EAGLE es 3 veces más rápido que la decodificación convencional, 2 veces más rápido que Lookahead y 1.6 veces más rápido que Medusa. Utilizando gpt-fast, EAGLE alcanza en promedio 160 tokens/s con LLaMA2-Chat 13B en una sola GPU RTX 3090, en comparación con los 24 tokens/s de las implementaciones de Huggingface.
English
Auto-regressive decoding makes the inference of Large Language Models (LLMs)
time-consuming. We propose a simple framework, EAGLE (Extrapolation Algorithm
for Greater Language-model Efficiency), for lossless acceleration. Unlike
traditional speculative sampling methods, EAGLE operates the drafting process
auto-regressively at the more regular (second-top-layer) feature level and
addresses the sampling uncertainty issues in the next-feature prediction
problems by integrating tokens from one time step ahead. The acceleration
provided by EAGLE is lossless: it involves no fine-tuning of the target LLM,
and the generated text maintains the same distribution as that of vanilla
auto-regressive decoding. As of the submission of this paper, EAGLE is the
fastest known framework within the speculative sampling family. On MT-bench,
EAGLE is 3x faster than vanilla decoding, 2x faster than Lookahead, and 1.6x
faster than Medusa. Using gpt-fast, EAGLE attains on average 160 tokens/s with
LLaMA2-Chat 13B on a single RTX 3090 GPU, compared to 24 tokens/s of
Huggingface's implementations.