ChatPaper.aiChatPaper

Especificación en Bloque: Decodificación Especulativa Iterativa por Bloques con Redacción Dinámica en Árbol

SpecBlock: Block-Iterative Speculative Decoding with Dynamic Tree Drafting

May 8, 2026
Autores: Weijie Shi, Qiang Xu, Fan Deng, Yaguang Wu, Jiarun Liu, Yehong Xu, Hao Chen, Jia Zhu, Jiajie Xu, Xiangjun Huang, Jian Yang, Xiaofang Zhou
cs.AI

Resumen

La decodificación especulativa acelera la inferencia en modelos de lenguaje grandes (LLM) mediante la generación de un árbol de continuaciones candidatas y su verificación en un único paso hacia adelante. Los métodos existentes de generación de borradores se dividen en dos categorías con debilidades opuestas. Los generadores autoregresivos, como EAGLE-3, preservan la dependencia a lo largo de cada ruta de borrador, pero requieren una llamada al generador por cada nivel de profundidad del árbol, lo que convierte la generación en una parte significativa de la latencia por iteración. Los generadores paralelos reducen las llamadas al generador prediciendo múltiples posiciones futuras en un solo paso, pero cada posición se predice sin considerar las demás, produciendo rutas que el verificador rechaza. En este trabajo, proponemos SpecBlock, un generador iterativo por bloques que combina la dependencia de ruta con un bajo costo de generación. Cada paso del generador produce K posiciones dependientes, lo que denominamos un bloque. El árbol de borradores crece mediante expansiones iterativas de bloques. Dos mecanismos mantienen explícitamente la dependencia de ruta para garantizar la precisión de las posiciones posteriores. Dentro de cada bloque, un desplazamiento por capas transfiere el estado oculto de la posición anterior a cada capa del decodificador. Entre bloques, cada nuevo bloque puede comenzar desde cualquier posición del bloque anterior, heredando su estado oculto para extender la ruta. Para optimizar el presupuesto del verificador donde es más probable la aceptación, una cabeza de clasificación entrenada conjuntamente reemplaza el árbol top-k fijo, asignando ramificaciones por posición durante la generación. Para evitar entrenar el generador con prefijos que nunca producirá en inferencia, una máscara de prefijos válidos descarta la pérdida en posiciones posteriores una vez que una anterior es incorrecta. Más allá de la generación estática, un bandido consciente del costo en despliegue utiliza retroalimentación gratuita del verificador para actualizar selectivamente el generador, solo cuando la ganancia esperada en rendimiento supera el costo de actualización. Los experimentos muestran que SpecBlock mejora la aceleración media en un 8-13% respecto a EAGLE-3, con un costo de generación del 44-52%, y la adaptación consciente del costo extiende esta ventaja a un 11-19%.
English
Speculative decoding accelerates LLM inference by drafting a tree of candidate continuations and verifying it in one target forward. Existing drafters fall into two camps with opposite weaknesses. Autoregressive drafters such as EAGLE-3 preserve dependence along each draft path but call the drafter once per tree depth, making drafting a non-trivial share of per-iteration latency. Parallel drafters cut drafter calls by predicting multiple future positions in one forward, but each position is predicted without seeing the others, producing paths the verifier rejects. In this paper, we propose SpecBlock, a block-iterative drafter that combines path dependence with cheap drafting. Each drafter forward produces K dependent positions and we call this a block. The draft tree grows through repeated block expansions. Two mechanisms explicitly carry path dependence to keep later draft positions accurate. Within each block, a layer-wise shift carries the previous position's hidden state into every decoder layer. Across blocks, each new block can start from any position of the previous block, inheriting its hidden state to extend the path. To spend verifier budget where acceptance is likely, a co-trained rank head replaces the fixed top-k tree by allocating per-position branching during drafting. To avoid training the drafter on prefixes it never produces at inference, a valid-prefix mask drops the loss at later positions once an earlier one is wrong. Beyond static drafting, a cost-aware bandit at deployment uses free verifier feedback to update the drafter selectively, only when the expected throughput gain exceeds the update cost. Experiments show that SpecBlock improves mean speedup by 8-13% over EAGLE-3 at 44-52% of its drafting cost, and cost-aware adaptation extends this lead to 11-19%.
PDF32May 12, 2026