Ouroboros : Décodage spéculatif avec génération de brouillons améliorée par un grand modèle

papers.abstract

Les méthodes de décodage par rédaction puis vérification, telles que le décodage spéculatif, sont largement adoptées comme méthodes sans entraînement pour accélérer l'inférence des grands modèles de langage (LLM). Au lieu d'utiliser un processus autorégressif pour décoder les jetons séquentiellement, le décodage spéculatif crée d'abord des ébauches avec un petit modèle efficace. Ensuite, les LLM sont requis pour effectuer la vérification et la correction de manière non autorégressive afin de minimiser le temps supplémentaire. Générer des ébauches plus longues peut conduire à des accélérations encore plus significatives une fois vérifiées, mais entraîne également des coûts substantiels d'essais et d'erreurs en cas d'échec. Souffrant d'une probabilité élevée d'échec de vérification, les méthodes de décodage existantes ne peuvent pas rédiger trop de contenu pour vérification en une seule fois, atteignant ainsi une accélération d'inférence sous-optimale. Dans cet article, nous présentons Ouroboros, qui construit un pool de candidats de phrases à partir du processus de vérification des LLM pour fournir des candidats à la génération d'ébauches du petit modèle. Ainsi, Ouroboros peut encore améliorer l'efficacité et l'efficience des ébauches initiales. Les résultats expérimentaux sur des tâches typiques de génération de texte montrent qu'Ouroboros atteint des accélérations allant jusqu'à 1,9x et 2,8x par rapport au décodage prospectif et au décodage spéculatif, respectivement. Le code source d'Ouroboros est disponible à l'adresse https://github.com/thunlp/Ouroboros.

English

Drafting-then-verifying decoding methods such as speculative decoding are widely adopted training-free methods to accelerate the inference of large language models (LLMs). Instead of employing an autoregressive process to decode tokens sequentially, speculative decoding initially creates drafts with an efficient small model. Then LLMs are required to conduct verification and correction in a non-autoregressive fashion to minimize time overhead. Generating longer drafts can lead to even more significant speedups once verified, but also incurs substantial trial and error costs if it fails. Suffering from the high verification failure probability, existing decoding methods cannot draft too much content for verification at one time, achieving sub-optimal inference acceleration. In this paper, we introduce Ouroboros, which constructs a phrase candidate pool from the verification process of LLMs to provide candidates for draft generation of the small model. Thereby, Ouroboros can further improve the efficiency and effectiveness of the initial drafts. The experimental results on typical text generation tasks show that Ouroboros achieves speedups of up to 1.9x and 2.8x compared to lookahead decoding and speculative decoding, respectively. The source code of Ouroboros is available at https://github.com/thunlp/Ouroboros.

Ouroboros : Décodage spéculatif avec génération de brouillons améliorée par un grand modèle

Ouroboros: Speculative Decoding with Large Model Enhanced Drafting

papers.abstract

Support