Menos Borrador, Más Recuperación: Construcción Híbrida de Árboles para Decodificación Especulativa

Resumen

La descodificación especulativa (DS) acelera la inferencia de modelos de lenguaje grandes mediante un paradigma de borrador y verificación. Con el objetivo de maximizar la tasa de aceptación, los métodos recientes construyen árboles de borrador expansivos, que desafortunadamente incurren en graves sobrecostos computacionales y de ancho de banda de VRAM que limitan las aceleraciones de extremo a extremo. Si bien la poda dinámica en profundidad puede reducir esta latencia al eliminar ramas marginales, también descarta candidatos potencialmente válidos, impidiendo que la tasa de aceptación alcance el límite superior de los árboles densos. En este artículo, identificamos una oportunidad crítica en la asignación de recursos: la transición de un borrador denso a uno podado libera un presupuesto computacional significativo. Para romper esta compensación de Pareto, presentamos Graft, un marco de compensación que acopla la poda y la recuperación como operaciones que se refuerzan mutuamente. La poda proporciona presupuesto suficiente para la recuperación, mientras que la recuperación compensa la pérdida de cobertura inducida por la poda y recupera la longitud aceptada. Mediante un mecanismo secuencial de «podar luego injertar», Graft adjunta tokens recuperados altamente predictivos en las posiciones abiertas por la poda, llenando los vacíos topológicos con una sobrecarga casi nula. Graft es completamente libre de entrenamiento y sin pérdidas. Evaluaciones exhaustivas muestran que Graft establece una nueva frontera de Pareto en entornos de despliegue prácticos, incluyendo generación de contexto corto, generación de contexto largo y modelos a gran escala. En puntos de referencia de contexto corto, logra una aceleración de hasta 5.41 veces y mejora la aceleración promedio sobre EAGLE-3 hasta en un 21.8% en el modelo a gran escala Qwen3-235B. También proporcionamos una exploración preliminar de la aplicación de Graft al paradigma de borrador por bloques estilo DFlash, ofreciendo evidencia inicial y perspectivas para extender el injerto más allá de los árboles de borrador autorregresivos.

English

Speculative decoding (SD) accelerates large language model inference by leveraging a draft-then-verify paradigm. To maximize the acceptance rate, recent methods construct expansive draft trees, which unfortunately incur severe VRAM bandwidth and computational overheads that bottleneck end-to-end speedups. While dynamic-depth pruning can reduce this latency by removing marginal branches, it also discards potentially valid candidates, preventing the acceptance rate from reaching the upper bound of dense trees. In this paper, we identify a critical opportunity in resource allocation: the transition from dense to pruned drafting frees up significant computational budget. To break this Pareto tradeoff, we introduce Graft, a compensation framework that couples pruning and retrieval as mutually reinforcing operations. Pruning supplies sufficient budget for retrieval, while retrieval compensates for pruning-induced coverage loss and recovers accepted length. By employing a sequential `prune-then-graft' mechanism, Graft attaches highly predictive retrieved tokens into positions opened by pruning, filling the topological gaps with near-zero overhead. Graft is entirely training-free and lossless. Comprehensive evaluations show that Graft establishes a new Pareto frontier across practical deployment settings, including short-context generation, long-context generation, and large-scale models. On short-context benchmarks, it achieves up to 5.41times speedup and improves average speedup over EAGLE-3 by up to 21.8% on the large-scale Qwen3-235B. We also provide a preliminary exploration of applying Graft to the DFlash-style block drafting paradigm, offering initial evidence and insights for extending grafting beyond autoregressive draft trees.