ChatPaper.aiChatPaper

EAGLE-3: Skalierung der Inferenzbeschleunigung großer Sprachmodelle durch Training-Time-Tests

EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test

March 3, 2025
Autoren: Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang
cs.AI

Zusammenfassung

Die sequenzielle Natur moderner LLMs macht sie teuer und langsam, und spekulatives Sampling hat sich als effektive Lösung für dieses Problem erwiesen. Methoden wie EAGLE führen Autoregression auf Feature-Ebene durch und nutzen Top-Layer-Features des Zielmodells wieder, um bessere Ergebnisse als beim herkömmlichen spekulativen Sampling zu erzielen. Ein wachsender Trend in der LLM-Community ist die Skalierung der Trainingsdaten, um die Modellintelligenz zu verbessern, ohne die Inferenzkosten zu erhöhen. Wir beobachten jedoch, dass die Skalierung der Daten für EAGLE nur begrenzte Verbesserungen bringt. Wir identifizieren, dass diese Einschränkung auf die Feature-Vorhersagebeschränkungen von EAGLE zurückzuführen ist. In diesem Artikel stellen wir EAGLE-3 vor, das die Feature-Vorhersage zugunsten der direkten Token-Vorhersage aufgibt und die Abhängigkeit von Top-Layer-Features durch Multi-Layer-Feature-Fusion mittels einer Technik namens Training-Time-Test ersetzt. Diese Verbesserungen steigern die Leistung erheblich und ermöglichen es dem Draft-Modell, vollständig von der Skalierung der Trainingsdaten zu profitieren. Unsere Experimente umfassen sowohl Chat-Modelle als auch Reasoning-Modelle, die in fünf Aufgaben evaluiert werden. Die Ergebnisse zeigen, dass EAGLE-3 eine Beschleunigung von bis zu 6,5x erreicht, mit einer Verbesserung von etwa 1,4x gegenüber EAGLE-2. Der Code ist verfügbar unter https://github.com/SafeAILab/EAGLE.
English
The sequential nature of modern LLMs makes them expensive and slow, and speculative sampling has proven to be an effective solution to this problem. Methods like EAGLE perform autoregression at the feature level, reusing top-layer features from the target model to achieve better results than vanilla speculative sampling. A growing trend in the LLM community is scaling up training data to improve model intelligence without increasing inference costs. However, we observe that scaling up data provides limited improvements for EAGLE. We identify that this limitation arises from EAGLE's feature prediction constraints. In this paper, we introduce EAGLE-3, which abandons feature prediction in favor of direct token prediction and replaces reliance on top-layer features with multi-layer feature fusion via a technique named training-time test. These improvements significantly enhance performance and enable the draft model to fully benefit from scaling up training data. Our experiments include both chat models and reasoning models, evaluated on five tasks. The results show that EAGLE-3 achieves a speedup ratio up to 6.5x, with about 1.4x improvement over EAGLE-2. The code is available at https://github.com/SafeAILab/EAGLE.

Summary

AI-Generated Summary

PDF52March 10, 2025