SpecBlock : Décodage spéculatif itératif par blocs avec rédaction dynamique d'arbres

Résumé

Le décodage spéculatif accélère l’inférence des LLM en générant un arbre de continuations candidates et en le vérifiant en un seul passage avant de la cible. Les générateurs de brouillon existants se divisent en deux catégories présentant des faiblesses opposées. Les générateurs autorégressifs, comme EAGLE-3, préservent la dépendance le long de chaque chemin de brouillon mais nécessitent un appel au générateur par profondeur d’arbre, ce qui confère à la génération une part non négligeable de la latence par itération. Les générateurs parallèles réduisent le nombre d’appels en prédisant plusieurs positions futures en un seul passage avant, mais chaque position est prédite indépendamment des autres, produisant des chemins que le vérificateur rejette. Dans cet article, nous proposons SpecBlock, un générateur par blocs itératif qui combine dépendance de chemin et génération peu coûteuse. Chaque passage avant du générateur produit K positions dépendantes, ce que nous appelons un bloc. L’arbre de brouillon croît par expansions répétées de blocs. Deux mécanismes assurent explicitement la dépendance de chemin pour garantir la précision des positions ultérieures. Dans chaque bloc, un décalage par couche transfère l’état caché de la position précédente à chaque couche du décodeur. Entre les blocs, chaque nouveau bloc peut démarrer depuis n’importe quelle position du bloc précédent, héritant de son état caché pour prolonger le chemin. Afin d’allouer le budget du vérificateur là où l’acceptation est probable, une tête de classement co-entraînée remplace l’arbre top-k fixe en attribuant une ramification par position lors de la génération. Pour éviter d’entraîner le générateur sur des préfixes qu’il ne produit jamais lors de l’inférence, un masque de préfixe valide annule la perte aux positions ultérieures dès qu’une position antérieure est erronée. Au-delà de la génération statique, un bandit sensible aux coûts en phase de déploiement utilise le retour du vérificateur, qui est gratuit, pour mettre à jour sélectivement le générateur, uniquement lorsque le gain de débit attendu dépasse le coût de la mise à jour. Les expériences montrent que SpecBlock améliore l’accélération moyenne de 8 à 13 % par rapport à EAGLE-3, pour un coût de génération de 44 à 52 %, et l’adaptation sensible aux coûts étend cet avantage à 11–19 %.

English

Speculative decoding accelerates LLM inference by drafting a tree of candidate continuations and verifying it in one target forward. Existing drafters fall into two camps with opposite weaknesses. Autoregressive drafters such as EAGLE-3 preserve dependence along each draft path but call the drafter once per tree depth, making drafting a non-trivial share of per-iteration latency. Parallel drafters cut drafter calls by predicting multiple future positions in one forward, but each position is predicted without seeing the others, producing paths the verifier rejects. In this paper, we propose SpecBlock, a block-iterative drafter that combines path dependence with cheap drafting. Each drafter forward produces K dependent positions and we call this a block. The draft tree grows through repeated block expansions. Two mechanisms explicitly carry path dependence to keep later draft positions accurate. Within each block, a layer-wise shift carries the previous position's hidden state into every decoder layer. Across blocks, each new block can start from any position of the previous block, inheriting its hidden state to extend the path. To spend verifier budget where acceptance is likely, a co-trained rank head replaces the fixed top-k tree by allocating per-position branching during drafting. To avoid training the drafter on prefixes it never produces at inference, a valid-prefix mask drops the loss at later positions once an earlier one is wrong. Beyond static drafting, a cost-aware bandit at deployment uses free verifier feedback to update the drafter selectively, only when the expected throughput gain exceeds the update cost. Experiments show that SpecBlock improves mean speedup by 8-13% over EAGLE-3 at 44-52% of its drafting cost, and cost-aware adaptation extends this lead to 11-19%.

SpecBlock : Décodage spéculatif itératif par blocs avec rédaction dynamique d'arbres

SpecBlock: Block-Iterative Speculative Decoding with Dynamic Tree Drafting

Résumé

Support