Домино: отделение каузального моделирования от авторегрессивного формирования черновика в спекулятивном декодировании

Аннотация

Спекулятивное декодирование ускоряет инференс LLM за счёт генерации нескольких токенов-черновиков и их параллельной верификации с помощью целевой модели. Однако практическое ускорение ограничено компромиссом между качеством черновиков и стоимостью их генерации: авторегрессионные модели-черновики моделируют каузальные зависимости между токенами-черновиками, но несут последовательные накладные расходы, тогда как параллельные модели-черновики снижают стоимость генерации, но ослабляют моделирование внутриблочных зависимостей. В данной статье мы предлагаем Domino — фреймворк спекулятивного декодирования, который разделяет моделирование каузальных зависимостей и дорогостоящее авторегрессионное исполнение черновиков. Сначала Domino использует параллельную базовую архитектуру черновиков для формирования предварительных распределений черновиков по всему блоку, а затем применяет лёгкую головку Domino для их уточнения с учётом префикс-зависимой каузальной информации. Для стабилизации каузального кодирования с принудительным обучением учителя мы дополнительно вводим учебный план с привязкой к базовой модели, который сначала усиливает параллельную базовую архитектуру, а затем постепенно смещает оптимизацию в сторону окончательного каузально-скорректированного распределения. Эксперименты на моделях Qwen3 показывают, что Domino достигает сквозного ускорения до \(5.49\times\) на бэкенде Transformers и до \(5.8\times\) ускорения пропускной способности при сервировке SGLang.

English

Speculative decoding accelerates LLM inference by drafting multiple tokens and verifying them in parallel with the target model. However, its practical speedup is constrained by the trade-off between draft quality and drafting cost: autoregressive drafters model causal dependencies among draft tokens but incur sequential overhead, while parallel drafters reduce drafting cost but weaken intra-block dependency modeling. In this paper, we propose Domino, a speculative decoding framework that decouples causal dependency modeling from expensive autoregressive draft execution. Domino first uses a parallel draft backbone to produce preliminary draft distributions for the entire block, and then applies a lightweight Domino head to refine them with prefix-dependent causal information. To stabilize teacher-forced causal encoding, we further introduce a base-anchored training curriculum that first strengthens the parallel backbone and then gradually shifts optimization toward the causally corrected final distribution. Experiments on Qwen3 models show that Domino achieves up to \(5.49\times\) end-to-end speedup under the Transformers backend and up to \(5.8\times\) throughput speedup under SGLang serving.