DEER: 拡散モデルで草稿を作成、自己回帰モデルで検証
DEER: Draft with Diffusion, Verify with Autoregressive Models
December 17, 2025
著者: Zicong Cheng, Guo-Wei Yang, Jia Li, Zhijie Deng, Meng-Hao Guo, Shi-Min Hu
cs.AI
要旨
大規模言語モデル(LLM)駆動のエージェントシステムと推論システムにおける実用上の重要課題である効率性は、自己回帰(AR)復号化の inherent な遅延によって制約が強まっている。投機的復号化は草案・検証スキームによってこのコストを軽減するが、既存のアプローチはAR草案モデル(ドラフター)に依存しており、二つの根本的な問題を引き起こす:(1)ステップごとの不確実性蓄積により、ターゲットモデルとドラフター間の信頼関係が段階的に崩壊すること、(2)ARドラフターの本質的に逐次的な復号化。これらの要因が相まって、速度向上効果は限定的となる。本論文では、拡散大規模言語モデル(dLLM)ドラフターが、その根本的に異なる確率モデリングと効率的な並列復号化戦略により、これらの問題を自然に克服できることを示す。この知見に基づき、拡散で草案生成しARモデルで検証する効率的な投機的復号化フレームワークDEERを提案する。高品質な草案生成を実現するため、DEERはdLLMベースのドラフターをターゲットARモデルに整合させる二段階トレーニングパイプラインを採用し、さらに単一ステップ復号化によって長い草案セグメントを生成する。実験では、DEERが最大32トークンの草案受容長を達成し、EAGLE-3の10トークンを大幅に上回った。さらに、HumanEvalにおけるQwen3-30B-A3Bの評価では、DEERが5.54倍の高速化を達成したのに対し、EAGLE-3は2.41倍に留まった。コード、モデル、デモ等はhttps://czc726.github.io/DEER/で公開予定である。
English
Efficiency, as a critical practical challenge for LLM-driven agentic and reasoning systems, is increasingly constrained by the inherent latency of autoregressive (AR) decoding. Speculative decoding mitigates this cost through a draft-verify scheme, yet existing approaches rely on AR draft models (a.k.a., drafters), which introduce two fundamental issues: (1) step-wise uncertainty accumulation leads to a progressive collapse of trust between the target model and the drafter, and (2) inherently sequential decoding of AR drafters. Together, these factors cause limited speedups. In this paper, we show that a diffusion large language model (dLLM) drafters can naturally overcome these issues through its fundamentally different probabilistic modeling and efficient parallel decoding strategy. Building on this insight, we introduce DEER, an efficient speculative decoding framework that drafts with diffusion and verifies with AR models. To enable high-quality drafting, DEER employs a two-stage training pipeline to align the dLLM-based drafters with the target AR model, and further adopts single-step decoding to generate long draft segments. Experiments show DEER reaches draft acceptance lengths of up to 32 tokens, far surpassing the 10 tokens achieved by EAGLE-3. Moreover, on HumanEval with Qwen3-30B-A3B, DEER attains a 5.54x speedup, while EAGLE-3 achieves only 2.41x. Code, model, demo, etc, will be available at https://czc726.github.io/DEER/