DEER: Rascunhar com Difusão, Verificar com Modelos Autoregressivos

Resumo

A eficiência, como um desafio prático crítico para sistemas de agentes e raciocínio baseados em LLMs, vê-se cada vez mais limitada pela latência inerente da descodificação autoregressiva (AR). A descodificação especulativa mitiga este custo através de um esquema de rascunho-verificação, contudo, as abordagens existentes dependem de modelos de rascunho AR (também designados por *drafters*), que introduzem duas questões fundamentais: (1) a acumulação passo a passo de incerteza leva a um colapso progressivo da confiança entre o modelo-alvo e o *drafter*, e (2) a descodificação inerentemente sequencial dos *drafters* AR. Em conjunto, estes fatores causam acelerações limitadas. Neste artigo, demonstramos que *drafters* baseados em modelos de linguagem de grande escala de difusão (dLLM) podem superar naturalmente estas questões através da sua modelação probabilística fundamentalmente diferente e da sua estratégia eficiente de descodificação paralela. Com base nesta perceção, introduzimos o DEER, um quadro eficiente de descodificação especulativa que gera rascunhos com difusão e verifica com modelos AR. Para permitir a geração de rascunhos de alta qualidade, o DEER emprega um *pipeline* de treino em duas fases para alinhar os *drafters* baseados em dLLM com o modelo AR alvo, e adota ainda a descodificação em passo único para gerar segmentos de rascunho longos. Experiências mostram que o DEER atinge comprimentos de aceitação de rascunho de até 32 *tokens*, superando largamente os 10 *tokens* alcançados pelo EAGLE-3. Adicionalmente, no HumanEval com o Qwen3-30B-A3B, o DEER atinge uma aceleração de 5.54x, enquanto o EAGLE-3 alcança apenas 2.41x. Código, modelo, demonstração, etc., estarão disponíveis em https://czc726.github.io/DEER/.

English

Efficiency, as a critical practical challenge for LLM-driven agentic and reasoning systems, is increasingly constrained by the inherent latency of autoregressive (AR) decoding. Speculative decoding mitigates this cost through a draft-verify scheme, yet existing approaches rely on AR draft models (a.k.a., drafters), which introduce two fundamental issues: (1) step-wise uncertainty accumulation leads to a progressive collapse of trust between the target model and the drafter, and (2) inherently sequential decoding of AR drafters. Together, these factors cause limited speedups. In this paper, we show that a diffusion large language model (dLLM) drafters can naturally overcome these issues through its fundamentally different probabilistic modeling and efficient parallel decoding strategy. Building on this insight, we introduce DEER, an efficient speculative decoding framework that drafts with diffusion and verifies with AR models. To enable high-quality drafting, DEER employs a two-stage training pipeline to align the dLLM-based drafters with the target AR model, and further adopts single-step decoding to generate long draft segments. Experiments show DEER reaches draft acceptance lengths of up to 32 tokens, far surpassing the 10 tokens achieved by EAGLE-3. Moreover, on HumanEval with Qwen3-30B-A3B, DEER attains a 5.54x speedup, while EAGLE-3 achieves only 2.41x. Code, model, demo, etc, will be available at https://czc726.github.io/DEER/

DEER: Rascunhar com Difusão, Verificar com Modelos Autoregressivos

DEER: Draft with Diffusion, Verify with Autoregressive Models

Resumo

Support