Ouroboros : Décodage spéculatif avec génération de brouillons améliorée par un grand modèle
Ouroboros: Speculative Decoding with Large Model Enhanced Drafting
February 21, 2024
Auteurs: Weilin Zhao, Yuxiang Huang, Xu Han, Chaojun Xiao, Zhiyuan Liu, Maosong Sun
cs.AI
Résumé
Les méthodes de décodage par rédaction puis vérification, telles que le décodage spéculatif, sont largement adoptées comme méthodes sans entraînement pour accélérer l'inférence des grands modèles de langage (LLM). Au lieu d'utiliser un processus autorégressif pour décoder les jetons séquentiellement, le décodage spéculatif crée d'abord des ébauches avec un petit modèle efficace. Ensuite, les LLM sont requis pour effectuer la vérification et la correction de manière non autorégressive afin de minimiser le temps supplémentaire. Générer des ébauches plus longues peut conduire à des accélérations encore plus significatives une fois vérifiées, mais entraîne également des coûts substantiels d'essais et d'erreurs en cas d'échec. Souffrant d'une probabilité élevée d'échec de vérification, les méthodes de décodage existantes ne peuvent pas rédiger trop de contenu pour vérification en une seule fois, atteignant ainsi une accélération d'inférence sous-optimale. Dans cet article, nous présentons Ouroboros, qui construit un pool de candidats de phrases à partir du processus de vérification des LLM pour fournir des candidats à la génération d'ébauches du petit modèle. Ainsi, Ouroboros peut encore améliorer l'efficacité et l'efficience des ébauches initiales. Les résultats expérimentaux sur des tâches typiques de génération de texte montrent qu'Ouroboros atteint des accélérations allant jusqu'à 1,9x et 2,8x par rapport au décodage prospectif et au décodage spéculatif, respectivement. Le code source d'Ouroboros est disponible à l'adresse https://github.com/thunlp/Ouroboros.
English
Drafting-then-verifying decoding methods such as speculative decoding are
widely adopted training-free methods to accelerate the inference of large
language models (LLMs). Instead of employing an autoregressive process to
decode tokens sequentially, speculative decoding initially creates drafts with
an efficient small model. Then LLMs are required to conduct verification and
correction in a non-autoregressive fashion to minimize time overhead.
Generating longer drafts can lead to even more significant speedups once
verified, but also incurs substantial trial and error costs if it fails.
Suffering from the high verification failure probability, existing decoding
methods cannot draft too much content for verification at one time, achieving
sub-optimal inference acceleration. In this paper, we introduce Ouroboros,
which constructs a phrase candidate pool from the verification process of LLMs
to provide candidates for draft generation of the small model. Thereby,
Ouroboros can further improve the efficiency and effectiveness of the initial
drafts. The experimental results on typical text generation tasks show that
Ouroboros achieves speedups of up to 1.9x and 2.8x compared to lookahead
decoding and speculative decoding, respectively. The source code of Ouroboros
is available at https://github.com/thunlp/Ouroboros.Summary
AI-Generated Summary