ChatPaper.aiChatPaper

DFlash: Difusión por Bloques para Decodificación Especulativa Flash

DFlash: Block Diffusion for Flash Speculative Decoding

February 5, 2026
Autores: Jian Chen, Yesheng Liang, Zhijian Liu
cs.AI

Resumen

Los modelos de lenguaje grandes (LLM) autoregresivos ofrecen un alto rendimiento pero requieren un proceso de decodificación inherentemente secuencial, lo que genera una alta latencia en la inferencia y una pobre utilización de las GPU. La decodificación especulativa mitiga este cuello de botella utilizando un modelo borrador rápido cuyas salidas son verificadas en paralelo por el LLM objetivo; sin embargo, los métodos existentes aún dependen de la generación borrador autoregresiva, que sigue siendo secuencial y limita las aceleraciones prácticas. Los LLM de difusión ofrecen una alternativa prometedora al permitir la generación en paralelo, pero los modelos de difusión actuales generalmente tienen un rendimiento inferior en comparación con los modelos autoregresivos. En este artículo, presentamos DFlash, un marco de decodificación especulativa que emplea un modelo de difusión por bloques ligero para la generación borrador en paralelo. Al generar tokens borrador en una sola pasada hacia adelante y condicionar el modelo borrador en características de contexto extraídas del modelo objetivo, DFlash permite una generación borrador eficiente con salidas de alta calidad y tasas de aceptación más elevadas. Los experimentos muestran que DFlash logra una aceleración sin pérdidas superior a 6x en una variedad de modelos y tareas, alcanzando una velocidad hasta 2.5 veces mayor que el método de decodificación especulativa de vanguardia EAGLE-3.
English
Autoregressive large language models (LLMs) deliver strong performance but require inherently sequential decoding, leading to high inference latency and poor GPU utilization. Speculative decoding mitigates this bottleneck by using a fast draft model whose outputs are verified in parallel by the target LLM; however, existing methods still rely on autoregressive drafting, which remains sequential and limits practical speedups. Diffusion LLMs offer a promising alternative by enabling parallel generation, but current diffusion models typically underperform compared with autoregressive models. In this paper, we introduce DFlash, a speculative decoding framework that employs a lightweight block diffusion model for parallel drafting. By generating draft tokens in a single forward pass and conditioning the draft model on context features extracted from the target model, DFlash enables efficient drafting with high-quality outputs and higher acceptance rates. Experiments show that DFlash achieves over 6x lossless acceleration across a range of models and tasks, delivering up to 2.5x higher speedup than the state-of-the-art speculative decoding method EAGLE-3.
PDF90February 7, 2026