Accélération du décodage spéculatif par arbres d'ébauche à diffusion par blocs

Résumé

Le décodage spéculatif accélère les modèles de langage autorégressifs en utilisant un modèle léger (drafter) pour proposer plusieurs tokens futurs, que le modèle cible vérifie ensuite en parallèle. DFlash démontre qu'un block diffusion drafter peut générer un bloc d'ébauche entier en une seule passe avant et atteindre des performances de pointe en décodage spéculatif, surpassant les drafters autorégressifs robustes comme EAGLE-3. Cependant, la version standard de DFlash ne vérifie qu'une seule trajectoire ébauchée par round, limitant potentiellement sa longueur d'acceptation. Nous présentons DDTree (Diffusion Draft Tree), une méthode qui construit un arbre d'ébauche directement à partir des distributions par position d'un block diffusion drafter. Avec un budget fixe de nœuds, DDTree utilise un algorithme de tas best-first simple pour sélectionner les continuations les plus susceptibles de correspondre au modèle cible selon un substitut défini par la sortie du modèle d'ébauche. L'arbre résultant est vérifié efficacement en une seule passe avant du modèle cible grâce à un masque d'attention limité aux ancêtres. Comme DDTree s'appuie sur DFlash, un modèle d'ébauche leader pour le décodage spéculatif, ces améliorations placent DDTree parmi les approches les plus avancées en matière de décodage spéculatif.

English

Speculative decoding accelerates autoregressive language models by using a lightweight drafter to propose multiple future tokens, which the target model then verifies in parallel. DFlash shows that a block diffusion drafter can generate an entire draft block in a single forward pass and achieve state-of-the-art speculative decoding performance, outperforming strong autoregressive drafters such as EAGLE-3. Vanilla DFlash, however, still verifies only a single drafted trajectory per round, potentially limiting its acceptance length. We introduce DDTree (Diffusion Draft Tree), a method that constructs a draft tree directly from the per-position distributions of a block diffusion drafter. Under a fixed node budget, DDTree uses a simple best-first heap algorithm to select the continuations that are most likely to match the target model according to a surrogate defined by the draft model's output. The resulting tree is verified efficiently in a single target model forward pass using an ancestor-only attention mask. Because DDTree builds on DFlash, a leading draft model for speculative decoding, these gains place DDTree among the leading approaches to speculative decoding.

Accélération du décodage spéculatif par arbres d'ébauche à diffusion par blocs

Accelerating Speculative Decoding with Block Diffusion Draft Trees

Résumé

Support