EAGLE: Amostragem Especulativa Requer Repensar a Incerteza de Características
EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty
January 26, 2024
Autores: Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang
cs.AI
Resumo
A decodagem auto-regressiva torna a inferência de Modelos de Linguagem de Grande Escala (LLMs) demorada. Propomos um framework simples, EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency), para aceleração sem perdas. Diferente dos métodos tradicionais de amostragem especulativa, o EAGLE opera o processo de rascunho de forma auto-regressiva no nível de características mais regulares (segunda camada superior) e aborda as incertezas de amostragem nos problemas de previsão da próxima característica ao integrar tokens de um passo à frente. A aceleração proporcionada pelo EAGLE é sem perdas: não envolve ajuste fino do LLM alvo, e o texto gerado mantém a mesma distribuição da decodagem auto-regressiva tradicional. Na data de submissão deste artigo, o EAGLE é o framework mais rápido conhecido dentro da família de amostragem especulativa. No MT-bench, o EAGLE é 3x mais rápido que a decodagem tradicional, 2x mais rápido que o Lookahead e 1,6x mais rápido que o Medusa. Usando o gpt-fast, o EAGLE atinge, em média, 160 tokens/s com o LLaMA2-Chat 13B em uma única GPU RTX 3090, comparado aos 24 tokens/s das implementações do Huggingface.
English
Auto-regressive decoding makes the inference of Large Language Models (LLMs)
time-consuming. We propose a simple framework, EAGLE (Extrapolation Algorithm
for Greater Language-model Efficiency), for lossless acceleration. Unlike
traditional speculative sampling methods, EAGLE operates the drafting process
auto-regressively at the more regular (second-top-layer) feature level and
addresses the sampling uncertainty issues in the next-feature prediction
problems by integrating tokens from one time step ahead. The acceleration
provided by EAGLE is lossless: it involves no fine-tuning of the target LLM,
and the generated text maintains the same distribution as that of vanilla
auto-regressive decoding. As of the submission of this paper, EAGLE is the
fastest known framework within the speculative sampling family. On MT-bench,
EAGLE is 3x faster than vanilla decoding, 2x faster than Lookahead, and 1.6x
faster than Medusa. Using gpt-fast, EAGLE attains on average 160 tokens/s with
LLaMA2-Chat 13B on a single RTX 3090 GPU, compared to 24 tokens/s of
Huggingface's implementations.