DEER: Черновик с диффузией, проверка авторегрессионными моделями

Аннотация

Эффективность, являясь критически важной практической проблемой для агентских и рассуждающих систем на основе больших языковых моделей (LLM), все в большей степени ограничивается присущей авторегрессионному (AR) декодированию задержкой. Спекулятивное декодирование смягчает эти затраты с помощью схемы «черновик-верификация», однако существующие подходы полагаются на AR-модели для генерации черновиков (т.н. драфтеры), что порождает две фундаментальные проблемы: (1) пошаговое накопление неопределенности приводит к прогрессирующему коллапсу доверия между целевой моделью и драфтером, и (2) присущее AR-драфтерам последовательное декодирование. В совокупности эти факторы ограничивают достигаемое ускорение. В данной работе мы показываем, что драфтеры на основе диффузионных больших языковых моделей (dLLM) могут естественным образом преодолеть эти проблемы благодаря принципиально иному вероятностному моделированию и эффективной стратегии параллельного декодирования. Основываясь на этом инсайте, мы представляем DEER — эффективную框架 спекулятивного декодирования, которая генерирует черновики с помощью диффузии и проверяет их с помощью AR-моделей. Для обеспечения генерации качественных черновиков DEER использует двухэтапный пайплайн обучения для согласования dLLM-драфтеров с целевой AR-моделью и дополнительно применяет одношаговое декодирование для создания длинных сегментов черновика. Эксперименты показывают, что DEER достигает длины принимаемого черновика до 32 токенов, что значительно превосходит результат в 10 токенов, достигнутый EAGLE-3. Более того, на тесте HumanEval с моделью Qwen3-30B-A3B, DEER демонстрирует ускорение в 5.54 раза, в то время как EAGLE-3 достигает лишь 2.41 раза. Код, модели, демо и т.д. будут доступны по адресу https://czc726.github.io/DEER/

English

Efficiency, as a critical practical challenge for LLM-driven agentic and reasoning systems, is increasingly constrained by the inherent latency of autoregressive (AR) decoding. Speculative decoding mitigates this cost through a draft-verify scheme, yet existing approaches rely on AR draft models (a.k.a., drafters), which introduce two fundamental issues: (1) step-wise uncertainty accumulation leads to a progressive collapse of trust between the target model and the drafter, and (2) inherently sequential decoding of AR drafters. Together, these factors cause limited speedups. In this paper, we show that a diffusion large language model (dLLM) drafters can naturally overcome these issues through its fundamentally different probabilistic modeling and efficient parallel decoding strategy. Building on this insight, we introduce DEER, an efficient speculative decoding framework that drafts with diffusion and verifies with AR models. To enable high-quality drafting, DEER employs a two-stage training pipeline to align the dLLM-based drafters with the target AR model, and further adopts single-step decoding to generate long draft segments. Experiments show DEER reaches draft acceptance lengths of up to 32 tokens, far surpassing the 10 tokens achieved by EAGLE-3. Moreover, on HumanEval with Qwen3-30B-A3B, DEER attains a 5.54x speedup, while EAGLE-3 achieves only 2.41x. Code, model, demo, etc, will be available at https://czc726.github.io/DEER/

DEER: Черновик с диффузией, проверка авторегрессионными моделями

DEER: Draft with Diffusion, Verify with Autoregressive Models

Аннотация

Support