Acelerando a Decodificação Especulativa com Árvores de Rascunho por Difusão em Blocos

Resumo

A descodificação especulativa acelera os modelos de linguagem autoregressivos utilizando um modelo leve (drafter) para propor múltiplos tokens futuros, que são depois verificados em paralelo pelo modelo alvo. O DFlash demonstra que um drafter baseado em difusão de blocos pode gerar um bloco de rascunho completo numa única passagem direta e alcançar um desempenho de última geração na descodificação especulativa, superando drafters autoregressivos robustos como o EAGLE-3. No entanto, a versão padrão do DFlash (Vanilla DFlash) ainda verifica apenas uma única trajetória de rascunho por ciclo, o que pode limitar o seu comprimento de aceitação. Apresentamos o DDTree (Diffusion Draft Tree), um método que constrói uma árvore de rascunho diretamente a partir das distribuições por posição de um drafter de difusão de blocos. Com um orçamento fixo de nós, o DDTree utiliza um simples algoritmo de heap de melhor-primero para selecionar as continuações com maior probabilidade de corresponderem ao modelo alvo, de acordo com um substituto definido pela saída do modelo de rascunho. A árvore resultante é verificada de forma eficiente numa única passagem direta do modelo alvo, utilizando uma máscara de atenção apenas para ancestrais. Como o DDTree é construído sobre o DFlash, um modelo de rascunho líder para descodificação especulativa, estes ganhos posicionam o DDTree entre as abordagens mais avançadas para a descodificação especulativa.

English

Speculative decoding accelerates autoregressive language models by using a lightweight drafter to propose multiple future tokens, which the target model then verifies in parallel. DFlash shows that a block diffusion drafter can generate an entire draft block in a single forward pass and achieve state-of-the-art speculative decoding performance, outperforming strong autoregressive drafters such as EAGLE-3. Vanilla DFlash, however, still verifies only a single drafted trajectory per round, potentially limiting its acceptance length. We introduce DDTree (Diffusion Draft Tree), a method that constructs a draft tree directly from the per-position distributions of a block diffusion drafter. Under a fixed node budget, DDTree uses a simple best-first heap algorithm to select the continuations that are most likely to match the target model according to a surrogate defined by the draft model's output. The resulting tree is verified efficiently in a single target model forward pass using an ancestor-only attention mask. Because DDTree builds on DFlash, a leading draft model for speculative decoding, these gains place DDTree among the leading approaches to speculative decoding.

Acelerando a Decodificação Especulativa com Árvores de Rascunho por Difusão em Blocos

Accelerating Speculative Decoding with Block Diffusion Draft Trees

Resumo

Support