DFlash: Difusão em Blocos para Decodificação Especulativa Flash
DFlash: Block Diffusion for Flash Speculative Decoding
February 5, 2026
Autores: Jian Chen, Yesheng Liang, Zhijian Liu
cs.AI
Resumo
Os modelos de linguagem grandes (LLMs) autoregressivos oferecem alto desempenho, mas exigem um processo de decodificação inerentemente sequencial, resultando em alta latência de inferência e baixa utilização da GPU. A decodificação especulativa mitiga esse gargalo usando um modelo rascunho rápido, cujas saídas são verificadas em paralelo pelo LLM alvo; no entanto, os métodos existentes ainda dependem da geração autoregressiva de rascunhos, que permanece sequencial e limita os ganhos de velocidade práticos. Os LLMs de difusão oferecem uma alternativa promissora ao permitir a geração paralela, mas os modelos de difusão atuais geralmente têm desempenho inferior em comparação com os modelos autoregressivos. Neste artigo, apresentamos o DFlash, uma estrutura de decodificação especulativa que emprega um modelo de difusão por blocos leve para a geração paralela de rascunhos. Ao gerar tokens de rascunho em uma única passagem direta e condicionar o modelo de rascunho em características de contexto extraídas do modelo alvo, o DFlash permite uma geração eficiente de rascunhos com saídas de alta qualidade e taxas de aceitação mais elevadas. Experimentos mostram que o DFlash alcança uma aceleração sem perdas superior a 6x em uma variedade de modelos e tarefas, oferecendo um ganho de velocidade até 2,5x maior do que o método de decodificação especulativa state-of-the-art EAGLE-3.
English
Autoregressive large language models (LLMs) deliver strong performance but require inherently sequential decoding, leading to high inference latency and poor GPU utilization. Speculative decoding mitigates this bottleneck by using a fast draft model whose outputs are verified in parallel by the target LLM; however, existing methods still rely on autoregressive drafting, which remains sequential and limits practical speedups. Diffusion LLMs offer a promising alternative by enabling parallel generation, but current diffusion models typically underperform compared with autoregressive models. In this paper, we introduce DFlash, a speculative decoding framework that employs a lightweight block diffusion model for parallel drafting. By generating draft tokens in a single forward pass and conditioning the draft model on context features extracted from the target model, DFlash enables efficient drafting with high-quality outputs and higher acceptance rates. Experiments show that DFlash achieves over 6x lossless acceleration across a range of models and tasks, delivering up to 2.5x higher speedup than the state-of-the-art speculative decoding method EAGLE-3.