Rédaction Spéculative en Cascade pour une Inférence LLM Encore Plus Rapide
Cascade Speculative Drafting for Even Faster LLM Inference
December 18, 2023
Auteurs: Ziyi Chen, Xiaocong Yang, Jiacheng Lin, Chenkai Sun, Jie Huang, Kevin Chen-Chuan Chang
cs.AI
Résumé
Le décodage spéculatif améliore l'efficacité des grands modèles de langage (LLM)
en exploitant un modèle de brouillon pour ébaucher des propositions qu'un modèle cible plus grand examine.
Cependant, l'ébauche dans le décodage spéculatif implique une génération autoregressive lente
et la production de tokens d'importance variable avec le même temps alloué.
Ces deux inefficacités entraînent des performances sous-optimales. Pour
résoudre ce problème, nous introduisons l'Ébauche Spéculative en Cascade (CS. Drafting), une
nouvelle approche qui utilise deux types de cascades. La Cascade Verticale
élimine la génération autoregressive des modèles neuronaux. La Cascade Horizontale
permet une allocation efficace du temps dans l'ébauche, son optimalité étant soutenue
par notre analyse théorique. En combinant les deux cascades, notre algorithme CS. Drafting
a permis d'atteindre jusqu'à 72 % d'accélération supplémentaire par rapport au décodage spéculatif
dans nos expériences, tout en conservant la même distribution de sortie.
English
Speculative decoding enhances the efficiency of large language models (LLMs)
by leveraging a draft model to draft for a larger target model to review.
However, drafting in speculative decoding involves slow autoregressive
generation and generating tokens of different importance with the same time
allocation. These two inefficiencies lead to its suboptimal performance. To
address this issue, we introduce Cascade Speculative Drafting (CS. Drafting), a
novel approach that employs two types of cascades. The Vertical Cascade
eliminates autoregressive generation from neural models. The Horizontal Cascade
constitutes efficient time allocation in drafting with its optimality supported
by our theoretical analysis. Combining both cascades, our CS. Drafting
algorithm has achieved up to 72 percent additional speedup over speculative
decoding in our experiments while keeping the same output distribution.