Меньше черновиков, больше извлечения: гибридное построение дерева для спекулятивного декодирования

Аннотация

Спекулятивное декодирование (СД) ускоряет вывод больших языковых моделей, используя парадигму «сначала черновик, затем верификация». Для максимизации частоты принятия недавние методы строят обширные деревья черновиков, что, к сожалению, приводит к значительным накладным расходам пропускной способности видеопамяти и вычислений, которые становятся узким местом для сквозного ускорения. Хотя обрезка по динамической глубине может уменьшить эту задержку за счет удаления малозначимых ветвей, она также отбрасывает потенциально валидные кандидаты, не позволяя частоте принятия достичь верхней границы, свойственной плотным деревьям. В данной работе мы выявляем критическую возможность в распределении ресурсов: переход от плотного составления черновиков к разреженному высвобождает значительный вычислительный бюджет. Чтобы преодолеть этот компромисс по Парето, мы представляем Graft — компенсационную схему, объединяющую обрезку и извлечение как взаимодополняющие операции. Обрезка предоставляет достаточный бюджет для извлечения, в то время как извлечение компенсирует потерю покрытия, вызванную обрезкой, и восстанавливает длину принятых токенов. Используя последовательный механизм «сначала обрезка, затем прививка», Graft присоединяет высокопредсказуемые извлеченные токены в позиции, освобожденные обрезкой, заполняя топологические пробелы с почти нулевыми накладными расходами. Graft полностью не требует обучения и не вносит потерь. Комплексные оценки показывают, что Graft устанавливает новую границу Парето в различных практических сценариях развертывания, включая генерацию короткого контекста, генерацию длинного контекста и крупномасштабные модели. На бенчмарках с коротким контекстом он достигает ускорения до 5,41 раза и повышает среднее ускорение по сравнению с EAGLE-3 до 21,8% на крупномасштабной модели Qwen3-235B. Мы также предоставляем предварительное исследование применения Graft к парадигме блочного черновика в стиле DFlash, предлагая первые свидетельства и идеи для расширения прививки за пределы авторегрессионных деревьев черновиков.

English

Speculative decoding (SD) accelerates large language model inference by leveraging a draft-then-verify paradigm. To maximize the acceptance rate, recent methods construct expansive draft trees, which unfortunately incur severe VRAM bandwidth and computational overheads that bottleneck end-to-end speedups. While dynamic-depth pruning can reduce this latency by removing marginal branches, it also discards potentially valid candidates, preventing the acceptance rate from reaching the upper bound of dense trees. In this paper, we identify a critical opportunity in resource allocation: the transition from dense to pruned drafting frees up significant computational budget. To break this Pareto tradeoff, we introduce Graft, a compensation framework that couples pruning and retrieval as mutually reinforcing operations. Pruning supplies sufficient budget for retrieval, while retrieval compensates for pruning-induced coverage loss and recovers accepted length. By employing a sequential `prune-then-graft' mechanism, Graft attaches highly predictive retrieved tokens into positions opened by pruning, filling the topological gaps with near-zero overhead. Graft is entirely training-free and lossless. Comprehensive evaluations show that Graft establishes a new Pareto frontier across practical deployment settings, including short-context generation, long-context generation, and large-scale models. On short-context benchmarks, it achieves up to 5.41times speedup and improves average speedup over EAGLE-3 by up to 21.8% on the large-scale Qwen3-235B. We also provide a preliminary exploration of applying Graft to the DFlash-style block drafting paradigm, offering initial evidence and insights for extending grafting beyond autoregressive draft trees.