SpecBlock: блочно-итеративное спекулятивное декодирование с динамическим формированием дерева

Аннотация

Спекулятивное декодирование ускоряет вывод LLM, формируя дерево черновиков (кандидатов продолжения) и проверяя его за один прямой проход целевой модели. Существующие построители черновиков делятся на два лагеря с противоположными недостатками. Авторегрессионные построители, такие как EAGLE-3, сохраняют зависимость вдоль каждой ветви черновика, но вызывают построитель один раз на глубину дерева, что делает генерацию черновика существенной долей задержки на итерацию. Параллельные построители сокращают количество вызовов, предсказывая несколько будущих позиций за один прямой проход, но каждая позиция предсказывается без учёта других, что приводит к отклонению ветвей верификатором. В данной статье мы предлагаем SpecBlock — блочно-итеративный построитель черновиков, сочетающий зависимость по пути с дешёвой генерацией. Каждый прямой проход построителя выдаёт K зависимых позиций — это называется блоком. Дерево черновиков растёт за счёт повторных расширений блоков. Два механизма явно переносят зависимость по пути, чтобы сохранить точность последующих позиций черновика. Внутри блока послойный сдвиг передаёт скрытое состояние предыдущей позиции в каждый слой декодера. Между блоками каждый новый блок может начинаться с любой позиции предыдущего, наследуя её скрытое состояние и продлевая путь. Чтобы тратить бюджет верификатора там, где высока вероятность принятия, совместно обученная ранжирующая голова заменяет фиксированное top-k-дерево, распределяя ветвление по позициям в процессе построения черновика. Чтобы не обучать построитель на префиксах, которые он никогда не сгенерирует при выводе, маска корректного префикса обнуляет потери на последующих позициях, если предыдущая оказалась неверной. В дополнение к статическому построению черновиков, на этапе развёртывания бандит с учётом стоимости использует бесплатную обратную связь от верификатора для выборочного обновления построителя — только когда ожидаемый выигрыш в пропускной способности превышает стоимость обновления. Эксперименты показывают, что SpecBlock улучшает среднее ускорение на 8–13% по сравнению с EAGLE-3 при 44–52% его затрат на генерацию черновиков, а адаптация с учётом стоимости увеличивает это преимущество до 11–19%.

English

Speculative decoding accelerates LLM inference by drafting a tree of candidate continuations and verifying it in one target forward. Existing drafters fall into two camps with opposite weaknesses. Autoregressive drafters such as EAGLE-3 preserve dependence along each draft path but call the drafter once per tree depth, making drafting a non-trivial share of per-iteration latency. Parallel drafters cut drafter calls by predicting multiple future positions in one forward, but each position is predicted without seeing the others, producing paths the verifier rejects. In this paper, we propose SpecBlock, a block-iterative drafter that combines path dependence with cheap drafting. Each drafter forward produces K dependent positions and we call this a block. The draft tree grows through repeated block expansions. Two mechanisms explicitly carry path dependence to keep later draft positions accurate. Within each block, a layer-wise shift carries the previous position's hidden state into every decoder layer. Across blocks, each new block can start from any position of the previous block, inheriting its hidden state to extend the path. To spend verifier budget where acceptance is likely, a co-trained rank head replaces the fixed top-k tree by allocating per-position branching during drafting. To avoid training the drafter on prefixes it never produces at inference, a valid-prefix mask drops the loss at later positions once an earlier one is wrong. Beyond static drafting, a cost-aware bandit at deployment uses free verifier feedback to update the drafter selectively, only when the expected throughput gain exceeds the update cost. Experiments show that SpecBlock improves mean speedup by 8-13% over EAGLE-3 at 44-52% of its drafting cost, and cost-aware adaptation extends this lead to 11-19%.

SpecBlock: блочно-итеративное спекулятивное декодирование с динамическим формированием дерева

SpecBlock: Block-Iterative Speculative Decoding with Dynamic Tree Drafting

Аннотация

Support