Ускорение спекулятивного декодирования с помощью древовидных блоковых диффузионных проектов

Аннотация

Спекулятивное декодирование ускоряет авторегрессионные языковые модели за счет использования легковесного драфтера для предложения нескольких последующих токенов, которые основная модель затем проверяет параллельно. Метод DFlash демонстрирует, что драфтер на основе блочной диффузии может генерировать целый блок предположений за один прямой проход и достигать передовой производительности в спекулятивном декодировании, превосходя мощные авторегрессионные драфтеры, такие как EAGLE-3. Однако классический DFlash по-прежнему проверяет только одну предложенную траекторию за раунд, что потенциально ограничивает длину приемки. Мы представляем DDTree (Diffusion Draft Tree) — метод, который строит дерево предположений непосредственно из распределений по позициям, генерируемых блочным диффузионным драфтером. При фиксированном бюджете узлов DDTree использует простой алгоритм кучи с приоритетом для выбора продолжений, которые с наибольшей вероятностью совпадут с основной моделью согласно суррогатной функции, определенной на выходе драфтера. Полученное дерево эффективно проверяется за один прямой проход основной модели с использованием маски внимания, учитывающей только предков. Поскольку DDTree построен на основе DFlash — ведущей драфт-модели для спекулятивного декодирования — эти улучшения выводят DDTree в число передовых подходов к спекулятивному декодированию.

English

Speculative decoding accelerates autoregressive language models by using a lightweight drafter to propose multiple future tokens, which the target model then verifies in parallel. DFlash shows that a block diffusion drafter can generate an entire draft block in a single forward pass and achieve state-of-the-art speculative decoding performance, outperforming strong autoregressive drafters such as EAGLE-3. Vanilla DFlash, however, still verifies only a single drafted trajectory per round, potentially limiting its acceptance length. We introduce DDTree (Diffusion Draft Tree), a method that constructs a draft tree directly from the per-position distributions of a block diffusion drafter. Under a fixed node budget, DDTree uses a simple best-first heap algorithm to select the continuations that are most likely to match the target model according to a surrogate defined by the draft model's output. The resulting tree is verified efficiently in a single target model forward pass using an ancestor-only attention mask. Because DDTree builds on DFlash, a leading draft model for speculative decoding, these gains place DDTree among the leading approaches to speculative decoding.

Ускорение спекулятивного декодирования с помощью древовидных блоковых диффузионных проектов

Accelerating Speculative Decoding with Block Diffusion Draft Trees

Аннотация

Support