DEER: 확산 모델로 초안 작성, 자기회귀 모델로 검증
DEER: Draft with Diffusion, Verify with Autoregressive Models
December 17, 2025
저자: Zicong Cheng, Guo-Wei Yang, Jia Li, Zhijie Deng, Meng-Hao Guo, Shi-Min Hu
cs.AI
초록
효율성은 LLM 기반 에이전트 및 추론 시스템의 핵심적인 실용적 과제로서, 점차 자기회귀(AR) 디코딩의 고유 지연 시간에 의해 제한을 받고 있다. 스페큘레이티브 디코딩은 초안 생성-검증 방식을 통해 이러한 비용을 완화하지만, 기존 접근법은 AR 초안 모델(드래프터)에 의존하여 두 가지 근본적인 문제를 야기한다: (1) 단계별 불확실성 누적으로 인해 대상 모델과 드래프터 간 신뢰도가 점진적으로 붕괴되고, (2) AR 드래프터의 본질적으로 순차적인 디코딩. 이러한 요인들이 결합되어 제한된 속도 향상만을 가져온다. 본 논문에서는 확산 대형 언어 모델(dLLM) 드래프터가 근본적으로 다른 확률적 모델링과 효율적인 병렬 디코딩 전략을 통해 이러한 문제들을 자연스럽게 극복할 수 있음을 보인다. 이 통찰을 바탕으로 우리는 확산으로 초안을 생성하고 AR 모델로 검증하는 효율적인 스페큘레이티브 디코딩 프레임워크인 DEER를 소개한다. 고품질 초안 생성을 위해 DEER는 dLLM 기반 드래프터를 대상 AR 모델과 정렬시키는 2단계 학습 파이프라인을 사용하며, 긴 초안 세그먼트를 생성하기 위해 단일 단계 디코딩을 추가로 채택한다. 실험 결과 DEER는 최대 32토큰의 초안 수용 길이에 도달하여 EAGLE-3가 달성한 10토큰을 크게 능가한다. 또한 HumanEval에서 Qwen3-30B-A3B를 사용할 때 DEER는 5.54배의 속도 향상을 달성한 반면, EAGLE-3는 단지 2.41배의 속도 향상만을 보였다. 코드, 모델, 데모 등은 https://czc726.github.io/DEER/에서 확인할 수 있다.
English
Efficiency, as a critical practical challenge for LLM-driven agentic and reasoning systems, is increasingly constrained by the inherent latency of autoregressive (AR) decoding. Speculative decoding mitigates this cost through a draft-verify scheme, yet existing approaches rely on AR draft models (a.k.a., drafters), which introduce two fundamental issues: (1) step-wise uncertainty accumulation leads to a progressive collapse of trust between the target model and the drafter, and (2) inherently sequential decoding of AR drafters. Together, these factors cause limited speedups. In this paper, we show that a diffusion large language model (dLLM) drafters can naturally overcome these issues through its fundamentally different probabilistic modeling and efficient parallel decoding strategy. Building on this insight, we introduce DEER, an efficient speculative decoding framework that drafts with diffusion and verifies with AR models. To enable high-quality drafting, DEER employs a two-stage training pipeline to align the dLLM-based drafters with the target AR model, and further adopts single-step decoding to generate long draft segments. Experiments show DEER reaches draft acceptance lengths of up to 32 tokens, far surpassing the 10 tokens achieved by EAGLE-3. Moreover, on HumanEval with Qwen3-30B-A3B, DEER attains a 5.54x speedup, while EAGLE-3 achieves only 2.41x. Code, model, demo, etc, will be available at https://czc726.github.io/DEER/