ChatPaper.aiChatPaper

EAGLE: Spekulatives Sampling erfordert ein Umdenken bei der Merkmalsunsicherheit

EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty

January 26, 2024
Autoren: Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang
cs.AI

Zusammenfassung

Die auto-regressive Decodierung macht die Inferenz von Large Language Models (LLMs) zeitaufwendig. Wir schlagen ein einfaches Framework vor, EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency), für eine verlustfreie Beschleunigung. Im Gegensatz zu traditionellen spekulativen Sampling-Methoden führt EAGLE den Drafting-Prozess auto-regressiv auf der regelmäßigeren (zweithöchsten) Feature-Ebene durch und adressiert die Unsicherheitsprobleme bei der Vorhersage des nächsten Features durch die Integration von Tokens aus einem Zeitschritt im Voraus. Die von EAGLE bereitgestellte Beschleunigung ist verlustfrei: Sie erfordert kein Fine-Tuning des Ziel-LLMs, und der generierte Text behält die gleiche Verteilung wie bei der herkömmlichen auto-regressiven Decodierung. Zum Zeitpunkt der Einreichung dieses Artikels ist EAGLE das schnellste bekannte Framework innerhalb der Familie der spekulativen Sampling-Methoden. Auf MT-bench ist EAGLE 3x schneller als die herkömmliche Decodierung, 2x schneller als Lookahead und 1,6x schneller als Medusa. Mit gpt-fast erreicht EAGLE durchschnittlich 160 Tokens/s mit LLaMA2-Chat 13B auf einer einzelnen RTX 3090 GPU, verglichen mit 24 Tokens/s der Implementierungen von Huggingface.
English
Auto-regressive decoding makes the inference of Large Language Models (LLMs) time-consuming. We propose a simple framework, EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency), for lossless acceleration. Unlike traditional speculative sampling methods, EAGLE operates the drafting process auto-regressively at the more regular (second-top-layer) feature level and addresses the sampling uncertainty issues in the next-feature prediction problems by integrating tokens from one time step ahead. The acceleration provided by EAGLE is lossless: it involves no fine-tuning of the target LLM, and the generated text maintains the same distribution as that of vanilla auto-regressive decoding. As of the submission of this paper, EAGLE is the fastest known framework within the speculative sampling family. On MT-bench, EAGLE is 3x faster than vanilla decoding, 2x faster than Lookahead, and 1.6x faster than Medusa. Using gpt-fast, EAGLE attains on average 160 tokens/s with LLaMA2-Chat 13B on a single RTX 3090 GPU, compared to 24 tokens/s of Huggingface's implementations.
PDF216December 15, 2024