HERST: Ontwerpen met Diffusie, Verifiëren met Autoregressieve Modellen

Samenvatting

Efficiëntie, als een kritieke praktische uitdaging voor door LLM aangedreven agent- en redeneersystemen, wordt in toenemende mate beperkt door de inherente latentie van autoregressieve (AR) decodering. Speculatieve decodering vermindert deze kost door een draft-verify-schema, maar bestaande benaderingen steunen op AR-draftmodellen (ook wel drafters genoemd), die twee fundamentele problemen introduceren: (1) stapsgewijze onzekerheidsaccumulatie leidt tot een progressieve ineenstorting van het vertrouwen tussen het doelmodel en de drafter, en (2) inherent sequentiële decodering van AR-drafters. Samen veroorzaken deze factoren beperkte snelheidswinsten. In dit artikel tonen we aan dat een diffusion large language model (dLLM) drafter deze problemen van nature kan overwinnen door zijn fundamenteel verschillende probabilistische modellering en efficiënte parallelle decodeerstrategie. Gebaseerd op dit inzicht introduceren we DEER, een efficiënt speculatief decodeerkader dat draft met diffusion en verifieert met AR-modellen. Om hoogwaardige drafting mogelijk te maken, gebruikt DEER een tweefasig trainingsproces om de op dLLM gebaseerde drafters af te stemmen op het doel-AR-model, en past verder enkelstapsdecodering toe om lange draftsegmenten te genereren. Experimenten tonen aan dat DEER draftacceptatielengtes bereikt van tot 32 tokens, ver boven de 10 tokens die door EAGLE-3 worden gehaald. Bovendien behaalt DEER op HumanEval met Qwen3-30B-A3B een snelheidswinst van 5,54x, terwijl EAGLE-3 slechts 2,41x bereikt. Code, model, demo, enz. zullen beschikbaar zijn op https://czc726.github.io/DEER/.

English

Efficiency, as a critical practical challenge for LLM-driven agentic and reasoning systems, is increasingly constrained by the inherent latency of autoregressive (AR) decoding. Speculative decoding mitigates this cost through a draft-verify scheme, yet existing approaches rely on AR draft models (a.k.a., drafters), which introduce two fundamental issues: (1) step-wise uncertainty accumulation leads to a progressive collapse of trust between the target model and the drafter, and (2) inherently sequential decoding of AR drafters. Together, these factors cause limited speedups. In this paper, we show that a diffusion large language model (dLLM) drafters can naturally overcome these issues through its fundamentally different probabilistic modeling and efficient parallel decoding strategy. Building on this insight, we introduce DEER, an efficient speculative decoding framework that drafts with diffusion and verifies with AR models. To enable high-quality drafting, DEER employs a two-stage training pipeline to align the dLLM-based drafters with the target AR model, and further adopts single-step decoding to generate long draft segments. Experiments show DEER reaches draft acceptance lengths of up to 32 tokens, far surpassing the 10 tokens achieved by EAGLE-3. Moreover, on HumanEval with Qwen3-30B-A3B, DEER attains a 5.54x speedup, while EAGLE-3 achieves only 2.41x. Code, model, demo, etc, will be available at https://czc726.github.io/DEER/

HERST: Ontwerpen met Diffusie, Verifiëren met Autoregressieve Modellen

DEER: Draft with Diffusion, Verify with Autoregressive Models

Samenvatting

Support