ChatPaper.aiChatPaper

EAGLE-3: Масштабирование ускорения вывода больших языковых моделей с помощью тестирования на этапе обучения

EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test

March 3, 2025
Авторы: Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang
cs.AI

Аннотация

Последовательный характер современных больших языковых моделей (LLM) делает их дорогостоящими и медленными, а спекулятивное сэмплирование доказало свою эффективность в решении этой проблемы. Методы, такие как EAGLE, выполняют авторегрессию на уровне признаков, повторно используя признаки верхнего слоя целевой модели для достижения лучших результатов по сравнению с базовым спекулятивным сэмплированием. В сообществе LLM наблюдается растущая тенденция масштабирования обучающих данных для повышения интеллекта модели без увеличения затрат на вывод. Однако мы отмечаем, что масштабирование данных дает ограниченные улучшения для EAGLE. Мы выяснили, что это ограничение связано с ограничениями предсказания признаков в EAGLE. В данной статье мы представляем EAGLE-3, который отказывается от предсказания признаков в пользу прямого предсказания токенов и заменяет зависимость от признаков верхнего слоя на слияние признаков из нескольких слоев с помощью техники, названной тестированием во время обучения. Эти улучшения значительно повышают производительность и позволяют черновой модели полностью использовать преимущества масштабирования обучающих данных. Наши эксперименты включают как чат-модели, так и модели для рассуждений, оцененные на пяти задачах. Результаты показывают, что EAGLE-3 достигает ускорения до 6.5 раз, с улучшением примерно в 1.4 раза по сравнению с EAGLE-2. Код доступен по адресу https://github.com/SafeAILab/EAGLE.
English
The sequential nature of modern LLMs makes them expensive and slow, and speculative sampling has proven to be an effective solution to this problem. Methods like EAGLE perform autoregression at the feature level, reusing top-layer features from the target model to achieve better results than vanilla speculative sampling. A growing trend in the LLM community is scaling up training data to improve model intelligence without increasing inference costs. However, we observe that scaling up data provides limited improvements for EAGLE. We identify that this limitation arises from EAGLE's feature prediction constraints. In this paper, we introduce EAGLE-3, which abandons feature prediction in favor of direct token prediction and replaces reliance on top-layer features with multi-layer feature fusion via a technique named training-time test. These improvements significantly enhance performance and enable the draft model to fully benefit from scaling up training data. Our experiments include both chat models and reasoning models, evaluated on five tasks. The results show that EAGLE-3 achieves a speedup ratio up to 6.5x, with about 1.4x improvement over EAGLE-2. The code is available at https://github.com/SafeAILab/EAGLE.

Summary

AI-Generated Summary

PDF52March 10, 2025