EAGLE: Il campionamento speculativo richiede una rivisitazione dell'incertezza delle feature

Abstract

La decodifica auto-regressiva rende l'inferenza dei Large Language Models (LLM) lenta e dispendiosa in termini di tempo. Proponiamo un semplice framework, EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency), per un'accelerazione senza perdite. A differenza dei tradizionali metodi di campionamento speculativo, EAGLE opera il processo di drafting in modo auto-regressivo a livello di feature più regolari (secondo strato superiore) e affronta i problemi di incertezza nel campionamento nei problemi di previsione della feature successiva integrando token di un passo temporale avanti. L'accelerazione fornita da EAGLE è senza perdite: non richiede fine-tuning del LLM target e il testo generato mantiene la stessa distribuzione di quello prodotto dalla decodifica auto-regressiva standard. Al momento della presentazione di questo articolo, EAGLE è il framework più veloce noto all'interno della famiglia del campionamento speculativo. Su MT-bench, EAGLE è 3 volte più veloce della decodifica standard, 2 volte più veloce di Lookahead e 1,6 volte più veloce di Medusa. Utilizzando gpt-fast, EAGLE raggiunge in media 160 token/s con LLaMA2-Chat 13B su una singola GPU RTX 3090, rispetto ai 24 token/s delle implementazioni di Huggingface.

English

Auto-regressive decoding makes the inference of Large Language Models (LLMs) time-consuming. We propose a simple framework, EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency), for lossless acceleration. Unlike traditional speculative sampling methods, EAGLE operates the drafting process auto-regressively at the more regular (second-top-layer) feature level and addresses the sampling uncertainty issues in the next-feature prediction problems by integrating tokens from one time step ahead. The acceleration provided by EAGLE is lossless: it involves no fine-tuning of the target LLM, and the generated text maintains the same distribution as that of vanilla auto-regressive decoding. As of the submission of this paper, EAGLE is the fastest known framework within the speculative sampling family. On MT-bench, EAGLE is 3x faster than vanilla decoding, 2x faster than Lookahead, and 1.6x faster than Medusa. Using gpt-fast, EAGLE attains on average 160 tokens/s with LLaMA2-Chat 13B on a single RTX 3090 GPU, compared to 24 tokens/s of Huggingface's implementations.

EAGLE: Il campionamento speculativo richiede una rivisitazione dell'incertezza delle feature

EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty

Abstract

Support