DFlash : Diffusion par blocs pour le décodage spéculatif flash
DFlash: Block Diffusion for Flash Speculative Decoding
February 5, 2026
papers.authors: Jian Chen, Yesheng Liang, Zhijian Liu
cs.AI
papers.abstract
Les grands modèles de langage (LLM) autorégressifs offrent des performances solides mais nécessitent un décodage intrinsèquement séquentiel, entraînant une latence d'inférence élevée et une faible utilisation des GPU. Le décodage spéculatif atténue ce goulot d'étranglement en utilisant un modèle de brouillon rapide dont les sorties sont vérifiées en parallèle par le LLM cible ; cependant, les méthodes existantes reposent toujours sur un brouillon autorégressif, qui reste séquentiel et limite les accélérations pratiques. Les LLMs à diffusion offrent une alternative prometteuse en permettant une génération parallèle, mais les modèles de diffusion actuels affichent généralement des performances inférieures à celles des modèles autorégressifs. Dans cet article, nous présentons DFlash, un cadre de décodage spéculatif qui emploie un modèle de diffusion par blocs léger pour le brouillon parallèle. En générant les jetons de brouillon en une seule passe avant et en conditionnant le modèle de brouillon sur des caractéristiques contextuelles extraites du modèle cible, DFlash permet un brouillon efficace avec des sorties de haute qualité et des taux d'acceptation plus élevés. Les expériences montrent que DFlash atteint une accélération sans perte de plus de 6x sur une gamme de modèles et de tâches, offrant jusqu'à 2,5x d'accélération supplémentaire par rapport à la méthode de décodage spéculatif de pointe EAGLE-3.
English
Autoregressive large language models (LLMs) deliver strong performance but require inherently sequential decoding, leading to high inference latency and poor GPU utilization. Speculative decoding mitigates this bottleneck by using a fast draft model whose outputs are verified in parallel by the target LLM; however, existing methods still rely on autoregressive drafting, which remains sequential and limits practical speedups. Diffusion LLMs offer a promising alternative by enabling parallel generation, but current diffusion models typically underperform compared with autoregressive models. In this paper, we introduce DFlash, a speculative decoding framework that employs a lightweight block diffusion model for parallel drafting. By generating draft tokens in a single forward pass and conditioning the draft model on context features extracted from the target model, DFlash enables efficient drafting with high-quality outputs and higher acceptance rates. Experiments show that DFlash achieves over 6x lossless acceleration across a range of models and tasks, delivering up to 2.5x higher speedup than the state-of-the-art speculative decoding method EAGLE-3.