EAGLE : L'échantillonnage spéculatif nécessite une reconsidération de l'incertitude des caractéristiques
EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty
January 26, 2024
Auteurs: Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang
cs.AI
Résumé
Le décodage auto-régressif rend l'inférence des grands modèles de langage (LLMs) chronophage. Nous proposons un cadre simple, EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency), pour une accélération sans perte. Contrairement aux méthodes traditionnelles d'échantillonnage spéculatif, EAGLE opère le processus de rédaction de manière auto-régressive au niveau des caractéristiques plus régulières (deuxième couche supérieure) et aborde les problèmes d'incertitude d'échantillonnage dans les prédictions de caractéristiques suivantes en intégrant des jetons d'une étape temporelle en avance. L'accélération fournie par EAGLE est sans perte : elle ne nécessite aucun ajustement fin du LLM cible, et le texte généré conserve la même distribution que celle du décodage auto-régressif classique. Au moment de la soumission de cet article, EAGLE est le cadre le plus rapide connu dans la famille de l'échantillonnage spéculatif. Sur MT-bench, EAGLE est 3 fois plus rapide que le décodage classique, 2 fois plus rapide que Lookahead et 1,6 fois plus rapide que Medusa. En utilisant gpt-fast, EAGLE atteint en moyenne 160 jetons/s avec LLaMA2-Chat 13B sur une seule GPU RTX 3090, contre 24 jetons/s pour les implémentations de Huggingface.
English
Auto-regressive decoding makes the inference of Large Language Models (LLMs)
time-consuming. We propose a simple framework, EAGLE (Extrapolation Algorithm
for Greater Language-model Efficiency), for lossless acceleration. Unlike
traditional speculative sampling methods, EAGLE operates the drafting process
auto-regressively at the more regular (second-top-layer) feature level and
addresses the sampling uncertainty issues in the next-feature prediction
problems by integrating tokens from one time step ahead. The acceleration
provided by EAGLE is lossless: it involves no fine-tuning of the target LLM,
and the generated text maintains the same distribution as that of vanilla
auto-regressive decoding. As of the submission of this paper, EAGLE is the
fastest known framework within the speculative sampling family. On MT-bench,
EAGLE is 3x faster than vanilla decoding, 2x faster than Lookahead, and 1.6x
faster than Medusa. Using gpt-fast, EAGLE attains on average 160 tokens/s with
LLaMA2-Chat 13B on a single RTX 3090 GPU, compared to 24 tokens/s of
Huggingface's implementations.