DEER: Ébauche par Diffusion, Vérification par Modèles Autorégressifs

papers.abstract

L'efficacité, en tant que défi pratique crucial pour les systèmes agentiels et de raisonnement pilotés par les LLM, est de plus en plus contrainte par la latence inhérente au décodage autorégressif (AR). Le décodage spéculatif atténue ce coût grâce à un schéma de brouillon-vérification, mais les approches existantes reposent sur des modèles de brouillon AR (ou « drafters »), qui introduisent deux problèmes fondamentaux : (1) l'accumulation pas à pas de l'incertitude conduit à un effondrement progressif de la confiance entre le modèle cible et le drafter, et (2) le décodage séquentiel inhérent des drafters AR. Ensemble, ces facteurs entraînent des accélérations limitées. Dans cet article, nous montrons qu'un drafter basé sur un modèle de langage de grande taille à diffusion (dLLM) peut naturellement surmonter ces problèmes grâce à sa modélisation probabiliste fondamentalement différente et à sa stratégie de décodage parallèle efficace. En nous appuyant sur cette idée, nous présentons DEER, un cadre de décodage spéculatif efficace qui élabore des brouillons par diffusion et les vérifie avec des modèles AR. Pour permettre une génération de brouillons de haute qualité, DEER utilise un pipeline d'entraînement en deux étapes pour aligner les drafters basés sur dLLM avec le modèle AR cible, et adopte en outre un décodage en une seule étape pour générer de longs segments de brouillon. Les expériences montrent que DEER atteint des longueurs d'acceptation de brouillon allant jusqu'à 32 jetons, dépassant largement les 10 jetons atteints par EAGLE-3. De plus, sur HumanEval avec Qwen3-30B-A3B, DEER atteint une accélération de 5,54x, tandis qu'EAGLE-3 n'atteint que 2,41x. Le code, les modèles, les démos, etc., seront disponibles à l'adresse https://czc726.github.io/DEER/

English

Efficiency, as a critical practical challenge for LLM-driven agentic and reasoning systems, is increasingly constrained by the inherent latency of autoregressive (AR) decoding. Speculative decoding mitigates this cost through a draft-verify scheme, yet existing approaches rely on AR draft models (a.k.a., drafters), which introduce two fundamental issues: (1) step-wise uncertainty accumulation leads to a progressive collapse of trust between the target model and the drafter, and (2) inherently sequential decoding of AR drafters. Together, these factors cause limited speedups. In this paper, we show that a diffusion large language model (dLLM) drafters can naturally overcome these issues through its fundamentally different probabilistic modeling and efficient parallel decoding strategy. Building on this insight, we introduce DEER, an efficient speculative decoding framework that drafts with diffusion and verifies with AR models. To enable high-quality drafting, DEER employs a two-stage training pipeline to align the dLLM-based drafters with the target AR model, and further adopts single-step decoding to generate long draft segments. Experiments show DEER reaches draft acceptance lengths of up to 32 tokens, far surpassing the 10 tokens achieved by EAGLE-3. Moreover, on HumanEval with Qwen3-30B-A3B, DEER attains a 5.54x speedup, while EAGLE-3 achieves only 2.41x. Code, model, demo, etc, will be available at https://czc726.github.io/DEER/

DEER: Ébauche par Diffusion, Vérification par Modèles Autorégressifs

DEER: Draft with Diffusion, Verify with Autoregressive Models

papers.abstract

Support