DEER: Bozza con Diffusione, Verifica con Modelli Autoregressivi

Abstract

L'efficienza, come sfida pratica cruciale per i sistemi agentivi e di ragionamento basati su LLM, è sempre più limitata dalla latenza intrinseca della decodifica autoregressiva (AR). La decodifica speculativa mitiga questo costo attraverso uno schema di bozza-verifica, tuttavia gli approcci esistenti si basano su modelli di bozza AR (detti "drafters"), che introducono due problemi fondamentali: (1) l'accumulo di incertezza passo-passo porta a un collasso progressivo della fiducia tra il modello target e il drafter, e (2) la decodifica intrinsecamente sequenziale dei drafters AR. Insieme, questi fattori causano accelerazioni limitate. In questo articolo, dimostriamo che un drafter basato su un modello di linguaggio di grandi dimensioni a diffusione (dLLM) può superare naturalmente questi problemi grazie alla sua modellazione probabilistica fondamentalmente diversa e alla sua strategia di decodifica parallela efficiente. Basandoci su questa intuizione, introduciamo DEER, un framework efficiente di decodifica speculativa che genera bozze con la diffusione e verifica con modelli AR. Per abilitare una generazione di bozze di alta qualità, DEER impiega una pipeline di addestramento in due fasi per allineare i drafters basati su dLLM con il modello AR target, e adotta ulteriormente una decodifica a singolo passo per generare segmenti di bozza lunghi. Gli esperimenti mostrano che DEER raggiunge lunghezze di accettazione della bozza fino a 32 token, superando di gran lunga i 10 token ottenuti da EAGLE-3. Inoltre, su HumanEval con Qwen3-30B-A3B, DEER raggiunge un'accelerazione di 5.54x, mentre EAGLE-3 ne raggiunge solo 2.41x. Codice, modello, demo, ecc. saranno disponibili su https://czc726.github.io/DEER/

English

Efficiency, as a critical practical challenge for LLM-driven agentic and reasoning systems, is increasingly constrained by the inherent latency of autoregressive (AR) decoding. Speculative decoding mitigates this cost through a draft-verify scheme, yet existing approaches rely on AR draft models (a.k.a., drafters), which introduce two fundamental issues: (1) step-wise uncertainty accumulation leads to a progressive collapse of trust between the target model and the drafter, and (2) inherently sequential decoding of AR drafters. Together, these factors cause limited speedups. In this paper, we show that a diffusion large language model (dLLM) drafters can naturally overcome these issues through its fundamentally different probabilistic modeling and efficient parallel decoding strategy. Building on this insight, we introduce DEER, an efficient speculative decoding framework that drafts with diffusion and verifies with AR models. To enable high-quality drafting, DEER employs a two-stage training pipeline to align the dLLM-based drafters with the target AR model, and further adopts single-step decoding to generate long draft segments. Experiments show DEER reaches draft acceptance lengths of up to 32 tokens, far surpassing the 10 tokens achieved by EAGLE-3. Moreover, on HumanEval with Qwen3-30B-A3B, DEER attains a 5.54x speedup, while EAGLE-3 achieves only 2.41x. Code, model, demo, etc, will be available at https://czc726.github.io/DEER/

DEER: Bozza con Diffusione, Verifica con Modelli Autoregressivi

DEER: Draft with Diffusion, Verify with Autoregressive Models

Abstract

Support