ChatPaper.aiChatPaper

EAGLE: Спекулятивное сэмплирование требует переосмысления неопределенности признаков

EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty

January 26, 2024
Авторы: Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang
cs.AI

Аннотация

Авторегрессивное декодирование делает вывод крупных языковых моделей (LLM) затратным по времени. Мы предлагаем простую структуру, EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency), для безубыточного ускорения. В отличие от традиционных методов спекулятивного сэмплирования, EAGLE выполняет процесс чернового генерации авторегрессивно на более регулярном (предпоследнем) уровне признаков и решает проблемы неопределенности сэмплирования в задачах предсказания следующего признака путем интеграции токенов на один шаг вперед. Ускорение, предоставляемое EAGLE, является безубыточным: оно не требует тонкой настройки целевой LLM, и генерируемый текст сохраняет то же распределение, что и при классическом авторегрессивном декодировании. На момент подачи данной статьи EAGLE является самой быстрой известной структурой в семействе спекулятивного сэмплирования. На MT-bench EAGLE работает в 3 раза быстрее классического декодирования, в 2 раза быстрее Lookahead и в 1,6 раза быстрее Medusa. Используя gpt-fast, EAGLE достигает в среднем 160 токенов/с с LLaMA2-Chat 13B на одной видеокарте RTX 3090, по сравнению с 24 токенами/с в реализациях Huggingface.
English
Auto-regressive decoding makes the inference of Large Language Models (LLMs) time-consuming. We propose a simple framework, EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency), for lossless acceleration. Unlike traditional speculative sampling methods, EAGLE operates the drafting process auto-regressively at the more regular (second-top-layer) feature level and addresses the sampling uncertainty issues in the next-feature prediction problems by integrating tokens from one time step ahead. The acceleration provided by EAGLE is lossless: it involves no fine-tuning of the target LLM, and the generated text maintains the same distribution as that of vanilla auto-regressive decoding. As of the submission of this paper, EAGLE is the fastest known framework within the speculative sampling family. On MT-bench, EAGLE is 3x faster than vanilla decoding, 2x faster than Lookahead, and 1.6x faster than Medusa. Using gpt-fast, EAGLE attains on average 160 tokens/s with LLaMA2-Chat 13B on a single RTX 3090 GPU, compared to 24 tokens/s of Huggingface's implementations.
PDF216December 15, 2024