Streaming Spéculatif : Inférence Rapide des LLM sans Modèles Auxiliaires
Speculative Streaming: Fast LLM Inference without Auxiliary Models
February 16, 2024
Auteurs: Nikhil Bhendawade, Irina Belousova, Qichen Fu, Henry Mason, Mohammad Rastegari, Mahyar Najibi
cs.AI
Résumé
Le décodage spéculatif est une technique importante pour accélérer l'inférence d'un grand modèle de langage cible en s'appuyant sur les prédictions d'un modèle auxiliaire de brouillon. Bien qu'efficace, dans des contextes spécifiques à une application, il nécessite souvent un ajustement fin des modèles de brouillon et cible pour atteindre des taux d'acceptation élevés. À mesure que le nombre de tâches en aval augmente, ces modèles de brouillon ajoutent une complexité significative aux systèmes d'inférence. Nous proposons le **Streaming Spéculatif**, une méthode de décodage spéculatif à modèle unique qui intègre la génération de brouillon dans le modèle cible en modifiant l'objectif d'ajustement fin de la prédiction du prochain jeton à la prédiction de n-grammes futurs. Le Streaming Spéculatif accélère le décodage de 1,8 à 3,1 fois dans un ensemble diversifié de tâches, telles que la synthèse, les requêtes structurées et la représentation de sens, sans sacrifier la qualité de la génération. De plus, le Streaming Spéculatif est efficace en termes de paramètres. Il atteint des accélérations comparables ou supérieures aux architectures de style Medusa tout en utilisant environ 10 000 fois moins de paramètres supplémentaires, ce qui le rend bien adapté aux appareils à ressources limitées.
English
Speculative decoding is a prominent technique to speed up the inference of a
large target language model based on predictions of an auxiliary draft model.
While effective, in application-specific settings, it often involves
fine-tuning both draft and target models to achieve high acceptance rates. As
the number of downstream tasks grows, these draft models add significant
complexity to inference systems. We propose Speculative Streaming, a
single-model speculative decoding method that fuses drafting into the target
model by changing the fine-tuning objective from next token prediction to
future n-gram prediction. Speculative Streaming speeds up decoding by 1.8 -
3.1X in a diverse set of tasks, such as Summarization, Structured Queries, and
Meaning Representation, without sacrificing generation quality. Additionally,
Speculative Streaming is parameter-efficient. It achieves on-par/higher
speed-ups than Medusa-style architectures while using ~10000X fewer extra
parameters, making it well-suited for resource-constrained devices.Summary
AI-Generated Summary