EAGLE: Speculatieve Sampling vereist een herziening van kenmerkonzekerheid
EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty
January 26, 2024
Auteurs: Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang
cs.AI
Samenvatting
Auto-regressief decoderen maakt de inferentie van Large Language Models (LLMs) tijdrovend. Wij stellen een eenvoudig framework voor, EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency), voor verliesvrije versnelling. In tegenstelling tot traditionele speculatieve samplingmethoden, voert EAGLE het opstelproces auto-regressief uit op het meer regelmatige (tweede-top-laag) feature-niveau en behandelt het de onzekerheidsproblemen bij het voorspellen van de volgende feature door tokens van één tijdstap vooruit te integreren. De versnelling die EAGLE biedt, is verliesvrij: het vereist geen fine-tuning van het doel-LLM, en de gegenereerde tekst behoudt dezelfde distributie als die van standaard auto-regressief decoderen. Op het moment van indiening van dit artikel is EAGLE het snelst bekende framework binnen de familie van speculatieve sampling. Op MT-bench is EAGLE 3x sneller dan standaard decoderen, 2x sneller dan Lookahead, en 1.6x sneller dan Medusa. Met gpt-fast behaalt EAGLE gemiddeld 160 tokens/s met LLaMA2-Chat 13B op een enkele RTX 3090 GPU, vergeleken met 24 tokens/s van de implementaties van Huggingface.
English
Auto-regressive decoding makes the inference of Large Language Models (LLMs)
time-consuming. We propose a simple framework, EAGLE (Extrapolation Algorithm
for Greater Language-model Efficiency), for lossless acceleration. Unlike
traditional speculative sampling methods, EAGLE operates the drafting process
auto-regressively at the more regular (second-top-layer) feature level and
addresses the sampling uncertainty issues in the next-feature prediction
problems by integrating tokens from one time step ahead. The acceleration
provided by EAGLE is lossless: it involves no fine-tuning of the target LLM,
and the generated text maintains the same distribution as that of vanilla
auto-regressive decoding. As of the submission of this paper, EAGLE is the
fastest known framework within the speculative sampling family. On MT-bench,
EAGLE is 3x faster than vanilla decoding, 2x faster than Lookahead, and 1.6x
faster than Medusa. Using gpt-fast, EAGLE attains on average 160 tokens/s with
LLaMA2-Chat 13B on a single RTX 3090 GPU, compared to 24 tokens/s of
Huggingface's implementations.