Acelerando la Decodificación Especulativa con Árboles de Borradores de Difusión por Bloques

Resumen

La decodificación especulativa acelera los modelos de lenguaje autorregresivos utilizando un modelo ligero (drafter) para proponer múltiples tokens futuros, que luego el modelo objetivo verifica en paralelo. DFlash demuestra que un drafter de difusión por bloques puede generar un bloque de borrador completo en una sola pasada hacia adelante y lograr un rendimiento de vanguardia en decodificación especulativa, superando a drafters autorregresivos sólidos como EAGLE-3. Sin embargo, la versión básica de DFlash (Vanilla DFlash) aún verifica solo una única trayectoria de borrador por ronda, lo que potencialmente limita su longitud de aceptación. Presentamos DDTree (Árbol de Borradores por Difusión), un método que construye un árbol de borradores directamente a partir de las distribuciones por posición de un drafter de difusión por bloques. Bajo un presupuesto fijo de nodos, DDTree utiliza un simple algoritmo de montículo de mejor-primero para seleccionar las continuaciones con mayor probabilidad de coincidir con el modelo objetivo según un sustituto definido por la salida del modelo drafter. El árbol resultante se verifica eficientemente en una sola pasada hacia adelante del modelo objetivo utilizando una máscara de atención limitada a ancestros. Dado que DDTree se basa en DFlash, un modelo drafter líder para decodificación especulativa, estas mejoras posicionan a DDTree entre los enfoques más avanzados de decodificación especulativa.

English

Speculative decoding accelerates autoregressive language models by using a lightweight drafter to propose multiple future tokens, which the target model then verifies in parallel. DFlash shows that a block diffusion drafter can generate an entire draft block in a single forward pass and achieve state-of-the-art speculative decoding performance, outperforming strong autoregressive drafters such as EAGLE-3. Vanilla DFlash, however, still verifies only a single drafted trajectory per round, potentially limiting its acceptance length. We introduce DDTree (Diffusion Draft Tree), a method that constructs a draft tree directly from the per-position distributions of a block diffusion drafter. Under a fixed node budget, DDTree uses a simple best-first heap algorithm to select the continuations that are most likely to match the target model according to a surrogate defined by the draft model's output. The resulting tree is verified efficiently in a single target model forward pass using an ancestor-only attention mask. Because DDTree builds on DFlash, a leading draft model for speculative decoding, these gains place DDTree among the leading approaches to speculative decoding.

Acelerando la Decodificación Especulativa con Árboles de Borradores de Difusión por Bloques

Accelerating Speculative Decoding with Block Diffusion Draft Trees

Resumen

Support