EAGLE-3: Escalando la aceleración de inferencia de modelos de lenguaje grandes mediante pruebas en tiempo de entrenamiento
EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test
March 3, 2025
Autores: Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang
cs.AI
Resumen
La naturaleza secuencial de los LLM modernos los hace costosos y lentos, y el muestreo especulativo ha demostrado ser una solución efectiva a este problema. Métodos como EAGLE realizan autorregresión a nivel de características, reutilizando características de la capa superior del modelo objetivo para obtener mejores resultados que el muestreo especulativo básico. Una tendencia creciente en la comunidad de LLM es escalar los datos de entrenamiento para mejorar la inteligencia del modelo sin aumentar los costos de inferencia. Sin embargo, observamos que escalar los datos proporciona mejoras limitadas para EAGLE. Identificamos que esta limitación surge de las restricciones de predicción de características de EAGLE. En este artículo, presentamos EAGLE-3, que abandona la predicción de características en favor de la predicción directa de tokens y reemplaza la dependencia de las características de la capa superior con la fusión de características multicapa mediante una técnica llamada prueba en tiempo de entrenamiento. Estas mejoras mejoran significativamente el rendimiento y permiten que el modelo borrador se beneficie completamente del escalado de los datos de entrenamiento. Nuestros experimentos incluyen tanto modelos de chat como modelos de razonamiento, evaluados en cinco tareas. Los resultados muestran que EAGLE-3 logra una relación de aceleración de hasta 6.5x, con una mejora de aproximadamente 1.4x sobre EAGLE-2. El código está disponible en https://github.com/SafeAILab/EAGLE.
English
The sequential nature of modern LLMs makes them expensive and slow, and
speculative sampling has proven to be an effective solution to this problem.
Methods like EAGLE perform autoregression at the feature level, reusing
top-layer features from the target model to achieve better results than vanilla
speculative sampling. A growing trend in the LLM community is scaling up
training data to improve model intelligence without increasing inference costs.
However, we observe that scaling up data provides limited improvements for
EAGLE. We identify that this limitation arises from EAGLE's feature prediction
constraints. In this paper, we introduce EAGLE-3, which abandons feature
prediction in favor of direct token prediction and replaces reliance on
top-layer features with multi-layer feature fusion via a technique named
training-time test. These improvements significantly enhance performance and
enable the draft model to fully benefit from scaling up training data. Our
experiments include both chat models and reasoning models, evaluated on five
tasks. The results show that EAGLE-3 achieves a speedup ratio up to 6.5x, with
about 1.4x improvement over EAGLE-2. The code is available at
https://github.com/SafeAILab/EAGLE.Summary
AI-Generated Summary