EAGLE-3: Schaalvergroting van Inferentieversnelling voor Grote Taalmodellen via Trainingstijd Testen
EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test
March 3, 2025
Auteurs: Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang
cs.AI
Samenvatting
De sequentiële aard van moderne LLM's maakt ze duur en traag, en
speculatief sampling heeft zich bewezen als een effectieve oplossing voor dit probleem.
Methoden zoals EAGLE voeren autoregressie uit op feature-niveau, waarbij top-layer
features van het doelmodel worden hergebruikt om betere resultaten te behalen dan
standaard speculatief sampling. Een groeiende trend in de LLM-gemeenschap is het
opschalen van trainingsdata om de intelligentie van het model te verbeteren zonder
de inferentiekosten te verhogen. Wij observeren echter dat het opschalen van data
slechts beperkte verbeteringen biedt voor EAGLE. Wij identificeren dat deze beperking
voortkomt uit de feature-voorspellingsbeperkingen van EAGLE. In dit artikel introduceren
we EAGLE-3, dat feature-voorspelling verlaat ten gunste van directe token-voorspelling
en de afhankelijkheid van top-layer features vervangt door multi-layer feature-fusie
via een techniek genaamd training-time test. Deze verbeteringen verhogen de prestaties
aanzienlijk en stellen het draft-model in staat om volledig te profiteren van het
opschalen van trainingsdata. Onze experimenten omvatten zowel chatmodellen als
redeneermodellen, geëvalueerd op vijf taken. De resultaten tonen aan dat EAGLE-3 een
versnellingsratio tot 6,5x bereikt, met een verbetering van ongeveer 1,4x ten opzichte
van EAGLE-2. De code is beschikbaar op https://github.com/SafeAILab/EAGLE.
English
The sequential nature of modern LLMs makes them expensive and slow, and
speculative sampling has proven to be an effective solution to this problem.
Methods like EAGLE perform autoregression at the feature level, reusing
top-layer features from the target model to achieve better results than vanilla
speculative sampling. A growing trend in the LLM community is scaling up
training data to improve model intelligence without increasing inference costs.
However, we observe that scaling up data provides limited improvements for
EAGLE. We identify that this limitation arises from EAGLE's feature prediction
constraints. In this paper, we introduce EAGLE-3, which abandons feature
prediction in favor of direct token prediction and replaces reliance on
top-layer features with multi-layer feature fusion via a technique named
training-time test. These improvements significantly enhance performance and
enable the draft model to fully benefit from scaling up training data. Our
experiments include both chat models and reasoning models, evaluated on five
tasks. The results show that EAGLE-3 achieves a speedup ratio up to 6.5x, with
about 1.4x improvement over EAGLE-2. The code is available at
https://github.com/SafeAILab/EAGLE.Summary
AI-Generated Summary