ChatPaper.aiChatPaper

DFlash: Блочная диффузия для спекулятивного декодирования во флэш-памяти

DFlash: Block Diffusion for Flash Speculative Decoding

February 5, 2026
Авторы: Jian Chen, Yesheng Liang, Zhijian Liu
cs.AI

Аннотация

Авторегрессионные большие языковые модели (LLM) демонстрируют высокую производительность, но требуют изначально последовательного декодирования, что приводит к высокой задержке вывода и низкой утилизации GPU. Спекулятивное декодирование смягчает это узкое место, используя быструю черновую модель, выходные данные которой проверяются целевой LLM параллельно; однако существующие методы по-прежнему полагаются на авторегрессионное создание черновиков, которое остается последовательным и ограничивает практическое ускорение. Диффузионные LLM предлагают перспективную альтернативу, позволяя параллельную генерацию, но современные диффузионные модели, как правило, уступают по производительности авторегрессионным моделям. В данной статье мы представляем DFlash — фреймворк спекулятивного декодирования, который использует легковесную блочную диффузионную модель для параллельного создания черновиков. Генерируя черновые токены за один прямой проход и обусловливая черновую модель контекстными признаками, извлеченными из целевой модели, DFlash обеспечивает эффективное создание черновиков с высококачественными выходными данными и повышенной частотой принятия. Эксперименты показывают, что DFlash достигает более чем 6-кратного безусловного ускорения для ряда моделей и задач, обеспечивая до 2.5-кратного большего ускорения по сравнению с передовым методом спекулятивного декодирования EAGLE-3.
English
Autoregressive large language models (LLMs) deliver strong performance but require inherently sequential decoding, leading to high inference latency and poor GPU utilization. Speculative decoding mitigates this bottleneck by using a fast draft model whose outputs are verified in parallel by the target LLM; however, existing methods still rely on autoregressive drafting, which remains sequential and limits practical speedups. Diffusion LLMs offer a promising alternative by enabling parallel generation, but current diffusion models typically underperform compared with autoregressive models. In this paper, we introduce DFlash, a speculative decoding framework that employs a lightweight block diffusion model for parallel drafting. By generating draft tokens in a single forward pass and conditioning the draft model on context features extracted from the target model, DFlash enables efficient drafting with high-quality outputs and higher acceptance rates. Experiments show that DFlash achieves over 6x lossless acceleration across a range of models and tasks, delivering up to 2.5x higher speedup than the state-of-the-art speculative decoding method EAGLE-3.
PDF90February 7, 2026