ChatPaper.aiChatPaper

EAGLE-3 : Accélération de l'inférence des grands modèles de langage par mise à l'échelle via un test en phase d'entraînement

EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test

March 3, 2025
Auteurs: Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang
cs.AI

Résumé

La nature séquentielle des LLM modernes les rend coûteux et lents, et l'échantillonnage spéculatif s'est avéré être une solution efficace à ce problème. Des méthodes comme EAGLE effectuent une autorégression au niveau des caractéristiques, en réutilisant les caractéristiques de la couche supérieure du modèle cible pour obtenir de meilleurs résultats que l'échantillonnage spéculatif classique. Une tendance croissante dans la communauté des LLM est l'augmentation des données d'entraînement pour améliorer l'intelligence du modèle sans augmenter les coûts d'inférence. Cependant, nous observons que l'augmentation des données apporte des améliorations limitées pour EAGLE. Nous identifions que cette limitation découle des contraintes de prédiction des caractéristiques d'EAGLE. Dans cet article, nous présentons EAGLE-3, qui abandonne la prédiction des caractéristiques au profit de la prédiction directe des tokens et remplace la dépendance aux caractéristiques de la couche supérieure par une fusion multi-couches des caractéristiques via une technique appelée test en temps d'entraînement. Ces améliorations augmentent significativement les performances et permettent au modèle de brouillon de bénéficier pleinement de l'augmentation des données d'entraînement. Nos expériences incluent à la fois des modèles de chat et des modèles de raisonnement, évalués sur cinq tâches. Les résultats montrent qu'EAGLE-3 atteint un ratio d'accélération allant jusqu'à 6,5x, avec une amélioration d'environ 1,4x par rapport à EAGLE-2. Le code est disponible à l'adresse https://github.com/SafeAILab/EAGLE.
English
The sequential nature of modern LLMs makes them expensive and slow, and speculative sampling has proven to be an effective solution to this problem. Methods like EAGLE perform autoregression at the feature level, reusing top-layer features from the target model to achieve better results than vanilla speculative sampling. A growing trend in the LLM community is scaling up training data to improve model intelligence without increasing inference costs. However, we observe that scaling up data provides limited improvements for EAGLE. We identify that this limitation arises from EAGLE's feature prediction constraints. In this paper, we introduce EAGLE-3, which abandons feature prediction in favor of direct token prediction and replaces reliance on top-layer features with multi-layer feature fusion via a technique named training-time test. These improvements significantly enhance performance and enable the draft model to fully benefit from scaling up training data. Our experiments include both chat models and reasoning models, evaluated on five tasks. The results show that EAGLE-3 achieves a speedup ratio up to 6.5x, with about 1.4x improvement over EAGLE-2. The code is available at https://github.com/SafeAILab/EAGLE.

Summary

AI-Generated Summary

PDF52March 10, 2025