Accelerazione del Decodifica Speculativa mediante Alberi di Bozze a Diffusione a Blocchi

Abstract

La decodifica speculativa accelera i modelli linguistici autoregressivi utilizzando un modello draft leggero per proporre più token futuri, che il modello target verifica poi in parallelo. DFlash dimostra che un draft model basato su diffusione di blocchi può generare un intero blocco draft in un unico passaggio in avanti e raggiungere prestazioni all'avanguardia nella decodifica speculativa, superando draft model autoregressivi robusti come EAGLE-3. Tuttavia, la versione vanilla di DFlash verifica ancora una sola traiettoria draft per round, limitando potenzialmente la sua lunghezza di accettazione. Introduciamo DDTree (Diffusion Draft Tree), un metodo che costruisce un albero draft direttamente dalle distribuzioni per posizione di un draft model a diffusione di blocchi. Con un budget fisso di nodi, DDTree utilizza un semplice algoritmo heap best-first per selezionare le continuazioni più probabili che corrispondano al modello target secondo un surrogato definito dall'output del draft model. L'albero risultante viene verificato efficientemente in un unico passaggio in avanti del modello target utilizzando una maschera di attenzione solo-antenati. Poiché DDTree si basa su DFlash, un draft model leader per la decodifica speculativa, questi vantaggi collocano DDTree tra gli approcci più avanzati alla decodifica speculativa.

English

Speculative decoding accelerates autoregressive language models by using a lightweight drafter to propose multiple future tokens, which the target model then verifies in parallel. DFlash shows that a block diffusion drafter can generate an entire draft block in a single forward pass and achieve state-of-the-art speculative decoding performance, outperforming strong autoregressive drafters such as EAGLE-3. Vanilla DFlash, however, still verifies only a single drafted trajectory per round, potentially limiting its acceptance length. We introduce DDTree (Diffusion Draft Tree), a method that constructs a draft tree directly from the per-position distributions of a block diffusion drafter. Under a fixed node budget, DDTree uses a simple best-first heap algorithm to select the continuations that are most likely to match the target model according to a surrogate defined by the draft model's output. The resulting tree is verified efficiently in a single target model forward pass using an ancestor-only attention mask. Because DDTree builds on DFlash, a leading draft model for speculative decoding, these gains place DDTree among the leading approaches to speculative decoding.

Accelerazione del Decodifica Speculativa mediante Alberi di Bozze a Diffusione a Blocchi

Accelerating Speculative Decoding with Block Diffusion Draft Trees

Abstract

Support