ChatPaper.aiChatPaper

Accélération de l'inférence des LLM grâce au décodage spéculatif en plusieurs étapes

Accelerating LLM Inference with Staged Speculative Decoding

August 8, 2023
papers.authors: Benjamin Spector, Chris Re
cs.AI

papers.abstract

Les récents progrès des grands modèles de langage (LLM) illustrent leurs capacités diversifiées. Nous proposons un nouvel algorithme, le décodage spéculatif en étapes, pour accélérer l'inférence des LLM dans des scénarios de petits lots et sur appareil. Nous abordons la faible intensité arithmétique de l'inférence en petits lots en améliorant les travaux précédents sur le décodage spéculatif. Premièrement, nous restructurons le lot spéculatif sous forme d'arbre, ce qui réduit les coûts de génération et augmente le nombre de tokens attendus par lot. Deuxièmement, nous ajoutons une deuxième étape de décodage spéculatif. Ensemble, ces améliorations réduisent la latence de décodage par lot unique de 3,16x avec un modèle GPT-2-L de 762 millions de paramètres, tout en préservant parfaitement la qualité de la sortie.
English
Recent advances with large language models (LLM) illustrate their diverse capabilities. We propose a novel algorithm, staged speculative decoding, to accelerate LLM inference in small-batch, on-device scenarios. We address the low arithmetic intensity of small-batch inference by improving upon previous work in speculative decoding. First, we restructure the speculative batch as a tree, which reduces generation costs and increases the expected tokens per batch. Second, we add a second stage of speculative decoding. Taken together, we reduce single-batch decoding latency by 3.16x with a 762M parameter GPT-2-L model while perfectly preserving output quality.
PDF254December 15, 2024