CIERVO: Borrador con Difusión, Verificación con Modelos Autoregresivos

Resumen

La eficiencia, como desafío práctico crítico para los sistemas agentivos y de razonamiento basados en LLM, se ve cada vez más limitada por la latencia inherente de la decodificación autoregresiva (AR). La decodificación especulativa mitiga este costo mediante un esquema de borrador-verificación, aunque los enfoques existentes dependen de modelos borradores AR (también llamados "drafters"), lo que introduce dos problemas fundamentales: (1) la acumulación de incertidumbre paso a paso conduce a un colapso progresivo de la confianza entre el modelo objetivo y el "drafter", y (2) la decodificación inherentemente secuencial de los "drafters" AR. En conjunto, estos factores provocan aceleraciones limitadas. En este artículo, demostramos que los "drafters" basados en modelos de lenguaje grande de difusión (dLLM) pueden superar naturalmente estos problemas gracias a su modelado probabilístico fundamentalmente diferente y su estrategia de decodificación paralela eficiente. Basándonos en esta idea, presentamos DEER, un marco de decodificación especulativa eficiente que genera borradores con difusión y los verifica con modelos AR. Para permitir la generación de borradores de alta calidad, DEER emplea un pipeline de entrenamiento de dos etapas para alinear los "drafters" basados en dLLM con el modelo AR objetivo, y además adopta una decodificación de un solo paso para generar segmentos de borrador largos. Los experimentos muestran que DEER alcanza longitudes de aceptación de borradores de hasta 32 tokens, superando con creces los 10 tokens logrados por EAGLE-3. Además, en HumanEval con Qwen3-30B-A3B, DEER consigue una aceleración de 5.54x, mientras que EAGLE-3 logra solo 2.41x. El código, el modelo, la demo, etc., estarán disponibles en https://czc726.github.io/DEER/

English

Efficiency, as a critical practical challenge for LLM-driven agentic and reasoning systems, is increasingly constrained by the inherent latency of autoregressive (AR) decoding. Speculative decoding mitigates this cost through a draft-verify scheme, yet existing approaches rely on AR draft models (a.k.a., drafters), which introduce two fundamental issues: (1) step-wise uncertainty accumulation leads to a progressive collapse of trust between the target model and the drafter, and (2) inherently sequential decoding of AR drafters. Together, these factors cause limited speedups. In this paper, we show that a diffusion large language model (dLLM) drafters can naturally overcome these issues through its fundamentally different probabilistic modeling and efficient parallel decoding strategy. Building on this insight, we introduce DEER, an efficient speculative decoding framework that drafts with diffusion and verifies with AR models. To enable high-quality drafting, DEER employs a two-stage training pipeline to align the dLLM-based drafters with the target AR model, and further adopts single-step decoding to generate long draft segments. Experiments show DEER reaches draft acceptance lengths of up to 32 tokens, far surpassing the 10 tokens achieved by EAGLE-3. Moreover, on HumanEval with Qwen3-30B-A3B, DEER attains a 5.54x speedup, while EAGLE-3 achieves only 2.41x. Code, model, demo, etc, will be available at https://czc726.github.io/DEER/

CIERVO: Borrador con Difusión, Verificación con Modelos Autoregresivos

DEER: Draft with Diffusion, Verify with Autoregressive Models

Resumen

Support