ChatPaper.aiChatPaper

EAGLE-3: Escalonando a Aceleração de Inferência de Modelos de Linguagem de Grande Porte por meio de Testes Durante o Treinamento

EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test

March 3, 2025
Autores: Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang
cs.AI

Resumo

A natureza sequencial dos LLMs modernos os torna caros e lentos, e a amostragem especulativa tem se mostrado uma solução eficaz para esse problema. Métodos como o EAGLE realizam autoregressão no nível de características, reutilizando características da camada superior do modelo alvo para obter resultados melhores do que a amostragem especulativa convencional. Uma tendência crescente na comunidade de LLMs é a ampliação dos dados de treinamento para melhorar a inteligência do modelo sem aumentar os custos de inferência. No entanto, observamos que a ampliação dos dados oferece melhorias limitadas para o EAGLE. Identificamos que essa limitação surge das restrições de previsão de características do EAGLE. Neste artigo, apresentamos o EAGLE-3, que abandona a previsão de características em favor da previsão direta de tokens e substitui a dependência de características da camada superior pela fusão de características de múltiplas camadas por meio de uma técnica chamada teste em tempo de treinamento. Essas melhorias aumentam significativamente o desempenho e permitem que o modelo de rascunho se beneficie totalmente da ampliação dos dados de treinamento. Nossos experimentos incluem tanto modelos de conversação quanto modelos de raciocínio, avaliados em cinco tarefas. Os resultados mostram que o EAGLE-3 alcança uma taxa de aceleração de até 6,5x, com uma melhoria de aproximadamente 1,4x em relação ao EAGLE-2. O código está disponível em https://github.com/SafeAILab/EAGLE.
English
The sequential nature of modern LLMs makes them expensive and slow, and speculative sampling has proven to be an effective solution to this problem. Methods like EAGLE perform autoregression at the feature level, reusing top-layer features from the target model to achieve better results than vanilla speculative sampling. A growing trend in the LLM community is scaling up training data to improve model intelligence without increasing inference costs. However, we observe that scaling up data provides limited improvements for EAGLE. We identify that this limitation arises from EAGLE's feature prediction constraints. In this paper, we introduce EAGLE-3, which abandons feature prediction in favor of direct token prediction and replaces reliance on top-layer features with multi-layer feature fusion via a technique named training-time test. These improvements significantly enhance performance and enable the draft model to fully benefit from scaling up training data. Our experiments include both chat models and reasoning models, evaluated on five tasks. The results show that EAGLE-3 achieves a speedup ratio up to 6.5x, with about 1.4x improvement over EAGLE-2. The code is available at https://github.com/SafeAILab/EAGLE.

Summary

AI-Generated Summary

PDF52March 10, 2025