S2D2: Decodificación Rápida para LLMs de Difusión mediante Autoespeculación Libre de Entrenamiento
S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation
March 26, 2026
Autores: Ligong Han, Hao Wang, Han Gao, Kai Xu, Akash Srivastava
cs.AI
Resumen
Los modelos de lenguaje de difusión por bloques ofrecen una vía prometedora para una generación más rápida que la autoregresiva al combinar decodificación autoregresiva por bloques con desruido paralelo dentro del bloque. Sin embargo, en el régimen de pocos pasos necesario para una aceleración práctica, la decodificación estándar por umbral de confianza suele ser frágil: los umbrales agresivos perjudican la calidad, mientras que los umbrales conservadores requieren pasos de desruido innecesarios. Los enfoques existentes que abordan este problema requieren entrenamiento adicional o incurren en cómputo extra durante la prueba. Presentamos S2D2, un marco de decodificación auto-especulativa sin entrenamiento para modelos de lenguaje de difusión por bloques. Nuestra observación clave es que un modelo de difusión por bloques se vuelve autoregresivo cuando el tamaño del bloque se reduce a uno, permitiendo que el mismo modelo preentrenado actúe tanto como bosquejador como verificador. S2D2 inserta un paso de verificación especulativa en la decodificación estándar de difusión por bloques y utiliza políticas de enrutamiento ligeras para decidir cuándo la verificación justifica su costo. Esto produce una trayectoria de decodificación híbrida en la que la difusión propone tokens en paralelo, mientras que el modo autoregresivo actúa como un crítico a nivel de secuencia local. En tres familias principales de difusión por bloques, S2D2 mejora consistentemente la relación precisión-velocidad sobre líneas base sólidas de umbralización de confianza. En SDAR, observamos una aceleración de hasta 4.7 veces sobre la decodificación autoregresiva, y de hasta 1.57 veces sobre una línea base dinámica de decodificación sintonizada, mientras se mejora la precisión hasta en 4.5 puntos. En LLaDA2.1-Mini, S2D2 se mantiene complementario a la autocorrección integrada, incluyendo un ajuste conservador donde es 4.4 veces más rápido que la línea base estática con una precisión ligeramente mayor.
English
Block-diffusion language models offer a promising path toward faster-than-autoregressive generation by combining block-wise autoregressive decoding with within-block parallel denoising. However, in the few-step regime needed for practical acceleration, standard confidence-thresholded decoding is often brittle: aggressive thresholds hurt quality, while conservative thresholds require unnecessary denoising steps. Existing approaches that address this issue either require additional training or incur extra test-time compute. We present S2D2, a training-free self-speculative decoding framework for block-diffusion language models. Our key observation is that a block-diffusion model becomes autoregressive when the block size is reduced to one, allowing the same pretrained model to act as both drafter and verifier. S2D2 inserts a speculative verification step into standard block-diffusion decoding and uses lightweight routing policies to decide when verification is worth its cost. This yields a hybrid decoding trajectory in which diffusion proposes tokens in parallel, while the autoregressive mode acts as a local sequence-level critic. Across three mainstream block-diffusion families, S2D2 consistently improves the accuracy-speed tradeoff over strong confidence-thresholding baselines. On SDAR, we observe up to 4.7times speedup over autoregressive decoding, and up to 1.57times over a tuned dynamic decoding baseline while improving accuracy by up to 4.5 points. On LLaDA2.1-Mini, S2D2 remains complementary to built-in self-correction, including a conservative setting where it is 4.4times faster than the static baseline with slightly higher accuracy.