EAGLE-3: Scalabilità dell'Accelerazione dell'Inferenza nei Modelli Linguistici di Grande Dimensione tramite Test in Fase di Addestramento
EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test
March 3, 2025
Autori: Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang
cs.AI
Abstract
La natura sequenziale dei moderni LLM li rende costosi e lenti, e il campionamento speculativo si è dimostrato una soluzione efficace a questo problema. Metodi come EAGLE eseguono l'autoregressione a livello di feature, riutilizzando le feature degli strati superiori del modello target per ottenere risultati migliori rispetto al campionamento speculativo tradizionale. Una tendenza crescente nella comunità degli LLM è quella di aumentare i dati di addestramento per migliorare l'intelligenza del modello senza incrementare i costi di inferenza. Tuttavia, osserviamo che l'aumento dei dati fornisce miglioramenti limitati per EAGLE. Identifichiamo che questa limitazione deriva dai vincoli di previsione delle feature di EAGLE. In questo articolo, introduciamo EAGLE-3, che abbandona la previsione delle feature a favore della previsione diretta dei token e sostituisce la dipendenza dalle feature degli strati superiori con la fusione di feature multi-strato attraverso una tecnica chiamata test durante l'addestramento. Questi miglioramenti aumentano significativamente le prestazioni e consentono al modello di bozza di beneficiare pienamente dell'aumento dei dati di addestramento. I nostri esperimenti includono sia modelli di chat che modelli di ragionamento, valutati su cinque task. I risultati mostrano che EAGLE-3 raggiunge un rapporto di accelerazione fino a 6,5x, con un miglioramento di circa 1,4x rispetto a EAGLE-2. Il codice è disponibile all'indirizzo https://github.com/SafeAILab/EAGLE.
English
The sequential nature of modern LLMs makes them expensive and slow, and
speculative sampling has proven to be an effective solution to this problem.
Methods like EAGLE perform autoregression at the feature level, reusing
top-layer features from the target model to achieve better results than vanilla
speculative sampling. A growing trend in the LLM community is scaling up
training data to improve model intelligence without increasing inference costs.
However, we observe that scaling up data provides limited improvements for
EAGLE. We identify that this limitation arises from EAGLE's feature prediction
constraints. In this paper, we introduce EAGLE-3, which abandons feature
prediction in favor of direct token prediction and replaces reliance on
top-layer features with multi-layer feature fusion via a technique named
training-time test. These improvements significantly enhance performance and
enable the draft model to fully benefit from scaling up training data. Our
experiments include both chat models and reasoning models, evaluated on five
tasks. The results show that EAGLE-3 achieves a speedup ratio up to 6.5x, with
about 1.4x improvement over EAGLE-2. The code is available at
https://github.com/SafeAILab/EAGLE.Summary
AI-Generated Summary