SpecBlock: Blok-iteratieve speculatieve decodering met dynamische boom-drafting

Samenvatting

Speculatieve decodering versnelt LLM-inferentie door het opstellen van een boom van kandidaat-vervolgstukken en het in één doelvoorwaarts te verifiëren. Bestaande opstellers vallen uiteen in twee kampen met tegengestelde zwaktes. Autoregressieve opstellers zoals EAGLE-3 behouden de afhankelijkheid langs elk conceptpad, maar roepen de opsteller één keer per boomdiepte aan, waardoor het opstellen een niet-triviaal aandeel van de latentie per iteratie wordt. Parallelle opstellers verminderen het aantal opstellersaanroepen door meerdere toekomstige posities in één voorwaarts te voorspellen, maar elke positie wordt voorspeld zonder de andere te zien, wat paden oplevert die de verificateur afwijst. In dit artikel stellen we SpecBlock voor, een blok-iteratieve opsteller die padafhankelijkheid combineert met goedkoop opstellen. Elke voorwaartse opsteller produceert K afhankelijke posities, die we een blok noemen. De conceptboom groeit door herhaalde blokuitbreidingen. Twee mechanismen dragen expliciet padafhankelijkheid over om latere conceptposities nauwkeurig te houden. Binnen elk blok zorgt een laagsgewijse verschuiving ervoor dat de verborgen toestand van de vorige positie elke decoderlaag bereikt. Over blokken heen kan elk nieuw blok starten vanuit elke positie van het vorige blok, waarbij de verborgen toestand wordt overgenomen om het pad uit te breiden. Om het verificateursbudget te besteden waar acceptatie waarschijnlijk is, vervangt een meegetrainde rangschikkingskop de vaste top-k-boom door per positie vertakking tijdens het opstellen toe te wijzen. Om te voorkomen dat de opsteller wordt getraind op voorvoegsels die hij tijdens inferentie nooit produceert, zorgt een geldig-voorvoegselmasker ervoor dat het verlies op latere posities wordt genegeerd zodra een eerdere positie fout is. Naast statisch opstellen gebruikt een kostenbewuste bandiet tijdens implementatie gratis terugkoppeling van de verificateur om de opsteller selectief bij te werken, alleen wanneer de verwachte doorvoerwinst groter is dan de updatekosten. Experimenten tonen aan dat SpecBlock de gemiddelde snelheidswinst met 8-13% verbetert ten opzichte van EAGLE-3 bij 44-52% van diens opstelkosten, en kostenbewuste adaptatie vergroot deze voorsprong tot 11-19%.

English

Speculative decoding accelerates LLM inference by drafting a tree of candidate continuations and verifying it in one target forward. Existing drafters fall into two camps with opposite weaknesses. Autoregressive drafters such as EAGLE-3 preserve dependence along each draft path but call the drafter once per tree depth, making drafting a non-trivial share of per-iteration latency. Parallel drafters cut drafter calls by predicting multiple future positions in one forward, but each position is predicted without seeing the others, producing paths the verifier rejects. In this paper, we propose SpecBlock, a block-iterative drafter that combines path dependence with cheap drafting. Each drafter forward produces K dependent positions and we call this a block. The draft tree grows through repeated block expansions. Two mechanisms explicitly carry path dependence to keep later draft positions accurate. Within each block, a layer-wise shift carries the previous position's hidden state into every decoder layer. Across blocks, each new block can start from any position of the previous block, inheriting its hidden state to extend the path. To spend verifier budget where acceptance is likely, a co-trained rank head replaces the fixed top-k tree by allocating per-position branching during drafting. To avoid training the drafter on prefixes it never produces at inference, a valid-prefix mask drops the loss at later positions once an earlier one is wrong. Beyond static drafting, a cost-aware bandit at deployment uses free verifier feedback to update the drafter selectively, only when the expected throughput gain exceeds the update cost. Experiments show that SpecBlock improves mean speedup by 8-13% over EAGLE-3 at 44-52% of its drafting cost, and cost-aware adaptation extends this lead to 11-19%.

SpecBlock: Blok-iteratieve speculatieve decodering met dynamische boom-drafting

SpecBlock: Block-Iterative Speculative Decoding with Dynamic Tree Drafting

Samenvatting

Support