SpecBlock: Blockiteratives spekulatives Dekodieren mit dynamischem Tree-Drafting
SpecBlock: Block-Iterative Speculative Decoding with Dynamic Tree Drafting
May 8, 2026
Autoren: Weijie Shi, Qiang Xu, Fan Deng, Yaguang Wu, Jiarun Liu, Yehong Xu, Hao Chen, Jia Zhu, Jiajie Xu, Xiangjun Huang, Jian Yang, Xiaofang Zhou
cs.AI
Zusammenfassung
Spekulative Dekodierung beschleunigt die Inferenz großer Sprachmodelle, indem sie einen Baum von Kandidatenfortsetzungen entwirft und diesen in einem einzigen Forward-Durchlauf des Zielmodells verifiziert. Vorhandene Drafter lassen sich in zwei Lager mit entgegengesetzten Schwächen einteilen. Autoregressive Drafter wie EAGLE-3 bewahren die Abhängigkeit entlang jedes Entwurfspfads, rufen den Drafter jedoch einmal pro Baumtiefe auf, was den Entwurfsprozess zu einem nicht trivialen Anteil der Latenz pro Iteration macht. Parallele Drafter reduzieren die Anzahl der Drafter-Aufrufe, indem sie mehrere zukünftige Positionen in einem einzigen Forward-Durchlauf vorhersagen, aber jede Position wird vorhergesagt, ohne die anderen zu sehen, was Pfade erzeugt, die der Verifizierer ablehnt. In dieser Arbeit schlagen wir SpecBlock vor, einen block-iterativen Drafter, der Pfadabhängigkeit mit kostengünstigem Entwurf kombiniert. Jeder Drafter-Forward-Durchlauf erzeugt K abhängige Positionen, und wir bezeichnen dies als einen Block. Der Entwurfsbaum wächst durch wiederholte Blockerweiterungen. Zwei Mechanismen transportieren explizit Pfadabhängigkeit, um spätere Entwurfspositionen genau zu halten. Innerhalb jedes Blocks überträgt eine schichtweise Verschiebung den verborgenen Zustand der vorherigen Position in jede Decoder-Schicht. Über Blöcke hinweg kann jeder neue Block von einer beliebigen Position des vorherigen Blocks starten und dessen verborgenen Zustand erben, um den Pfad zu verlängern. Um das Verifiziererbudget dort einzusetzen, wo Akzeptanz wahrscheinlich ist, ersetzt ein co-trainierter Rang-Kopf den festen Top-k-Baum, indem er beim Entwurf eine positionsabhängige Verzweigung zuweist. Um zu vermeiden, dass der Drafter auf Präfixen trainiert wird, die er bei der Inferenz nie erzeugt, verwirft eine gültige-Präfix-Maske den Verlust an späteren Positionen, sobald eine frühere falsch ist. Über das statische Entwerfen hinaus verwendet ein kostenbewusster Bandit bei der Bereitstellung kostenloses Verifizierer-Feedback, um den Drafter selektiv zu aktualisieren, nur wenn der erwartete Durchsatzgewinn die Aktualisierungskosten übersteigt. Experimente zeigen, dass SpecBlock die mittlere Beschleunigung um 8–13 % gegenüber EAGLE-3 bei 44–52 % von dessen Entwurfskosten verbessert, und die kostenbewusste Adaptation erweitert diesen Vorsprung auf 11–19 %.
English
Speculative decoding accelerates LLM inference by drafting a tree of candidate continuations and verifying it in one target forward. Existing drafters fall into two camps with opposite weaknesses. Autoregressive drafters such as EAGLE-3 preserve dependence along each draft path but call the drafter once per tree depth, making drafting a non-trivial share of per-iteration latency. Parallel drafters cut drafter calls by predicting multiple future positions in one forward, but each position is predicted without seeing the others, producing paths the verifier rejects. In this paper, we propose SpecBlock, a block-iterative drafter that combines path dependence with cheap drafting. Each drafter forward produces K dependent positions and we call this a block. The draft tree grows through repeated block expansions. Two mechanisms explicitly carry path dependence to keep later draft positions accurate. Within each block, a layer-wise shift carries the previous position's hidden state into every decoder layer. Across blocks, each new block can start from any position of the previous block, inheriting its hidden state to extend the path. To spend verifier budget where acceptance is likely, a co-trained rank head replaces the fixed top-k tree by allocating per-position branching during drafting. To avoid training the drafter on prefixes it never produces at inference, a valid-prefix mask drops the loss at later positions once an earlier one is wrong. Beyond static drafting, a cost-aware bandit at deployment uses free verifier feedback to update the drafter selectively, only when the expected throughput gain exceeds the update cost. Experiments show that SpecBlock improves mean speedup by 8-13% over EAGLE-3 at 44-52% of its drafting cost, and cost-aware adaptation extends this lead to 11-19%.