DEER: Entwurf mit Diffusion, Verifikation mit autoregressiven Modellen

Zusammenfassung

Effizienz als zentrale praktische Herausforderung für LLM-gesteuerte agentenbasierte und reasoning-Systeme wird zunehmend durch die inhärente Latenz des autoregressiven (AR) Decodierens eingeschränkt. Speculative Decoding mildert diese Kosten durch ein Draft-Verify-Schema, doch bestehende Ansätze verlassen sich auf AR-Draft-Modelle (sog. Drafter), die zwei grundlegende Probleme aufwerfen: (1) schrittweise Unsicherheitsakkumulation führt zu einem progressiven Vertrauensverlust zwischen Zielmodell und Drafter, und (2) inhärent sequenzielles Decodieren von AR-Draftern. Gemeinsam führen diese Faktoren zu begrenzten Beschleunigungen. In dieser Arbeit zeigen wir, dass Drafter auf Basis von Diffusion Large Language Models (dLLMs) diese Probleme auf natürliche Weise durch ihre fundamental unterschiedliche probabilistische Modellierung und effiziente parallele Decodierstrategie überwinden können. Aufbauend auf dieser Erkenntnis stellen wir DEER vor, einen effizienten Speculative-Decoding-Rahmen, der mit Diffusion drafted und mit AR-Modellen verifiziert. Um hochwertiges Drafting zu ermöglichen, nutzt DEER eine zweistufige Trainingspipeline, um die dLLM-basierten Drafter am Ziel-AR-Modell auszurichten, und setzt zusätzlich Einzelschritt-Decodierung ein, um lange Draft-Segmente zu generieren. Experimente zeigen, dass DEER Draft-Akzeptanzlängen von bis zu 32 Tokens erreicht, was die von EAGLE-3 erreichten 10 Tokens bei weitem übertrifft. Darüber hinaus erzielt DEER auf HumanEval mit Qwen3-30B-A3B eine 5,54-fache Beschleunigung, während EAGLE-3 nur 2,41-fach beschleunigt. Code, Modelle, Demo usw. werden unter https://czc726.github.io/DEER/ verfügbar sein.

English

Efficiency, as a critical practical challenge for LLM-driven agentic and reasoning systems, is increasingly constrained by the inherent latency of autoregressive (AR) decoding. Speculative decoding mitigates this cost through a draft-verify scheme, yet existing approaches rely on AR draft models (a.k.a., drafters), which introduce two fundamental issues: (1) step-wise uncertainty accumulation leads to a progressive collapse of trust between the target model and the drafter, and (2) inherently sequential decoding of AR drafters. Together, these factors cause limited speedups. In this paper, we show that a diffusion large language model (dLLM) drafters can naturally overcome these issues through its fundamentally different probabilistic modeling and efficient parallel decoding strategy. Building on this insight, we introduce DEER, an efficient speculative decoding framework that drafts with diffusion and verifies with AR models. To enable high-quality drafting, DEER employs a two-stage training pipeline to align the dLLM-based drafters with the target AR model, and further adopts single-step decoding to generate long draft segments. Experiments show DEER reaches draft acceptance lengths of up to 32 tokens, far surpassing the 10 tokens achieved by EAGLE-3. Moreover, on HumanEval with Qwen3-30B-A3B, DEER attains a 5.54x speedup, while EAGLE-3 achieves only 2.41x. Code, model, demo, etc, will be available at https://czc726.github.io/DEER/

DEER: Entwurf mit Diffusion, Verifikation mit autoregressiven Modellen

DEER: Draft with Diffusion, Verify with Autoregressive Models

Zusammenfassung

Support