S2D2: Decodifica Rapida per LLM Diffusivi tramite Auto-Speculazione Senza Addestramento
S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation
March 26, 2026
Autori: Ligong Han, Hao Wang, Han Gao, Kai Xu, Akash Srivastava
cs.AI
Abstract
I modelli linguistici a diffusione a blocchi offrono una prospettiva promettente per una generazione più veloce di quella autoregressiva, combinando la decodifica autoregressiva a blocchi con la denoisin parallela all'interno del blocco. Tuttavia, nel regime a pochi passi necessario per un'accelerazione pratica, la decodifica standard basata su soglia di confidenza risulta spesso fragile: soglie aggressive compromettono la qualità, mentre soglie conservative richiedono passi di denoising non necessari. Gli approcci esistenti che affrontano questo problema richiedono o un addestramento aggiuntivo o comportano un costo computazionale supplementare al momento del test. Presentiamo S2D2, un framework di decodifica auto-speculativa, che non richiede addestramento, per modelli linguistici a diffusione a blocchi. La nostra osservazione chiave è che un modello a diffusione a blocchi diventa autoregressivo quando la dimensione del blocco viene ridotta a uno, permettendo allo stesso modello preaddestrato di fungere sia da "bozzettista" (drafter) che da verificatore. S2D2 inserisce un passo di verifica speculativa nella decodifica standard a diffusione a blocchi e utilizza politiche di instradamento leggere per decidere quando la verifica vale il suo costo. Ciò produce una traiettoria di decodifica ibrida in cui la diffusione propone token in parallelo, mentre la modalità autoregressiva funge da critico a livello di sequenza locale. Attraverso tre famiglie principali di modelli a diffusione a blocchi, S2D2 migliora costantemente il compromesso precisione-velocità rispetto a solidi baseline con soglia di confidenza. Su SDAR, osserviamo un'accelerazione fino a 4,7 volte rispetto alla decodifica autoregressiva e fino a 1,57 volte rispetto a un baseline dinamico di decodifica ottimizzato, migliorando al contempo la precisione fino a 4,5 punti. Su LLaDA2.1-Mini, S2D2 rimane complementare alla correzione automatica integrata, incluso un setting conservativo in cui è 4,4 volte più veloce del baseline statico con una precisione leggermente superiore.
English
Block-diffusion language models offer a promising path toward faster-than-autoregressive generation by combining block-wise autoregressive decoding with within-block parallel denoising. However, in the few-step regime needed for practical acceleration, standard confidence-thresholded decoding is often brittle: aggressive thresholds hurt quality, while conservative thresholds require unnecessary denoising steps. Existing approaches that address this issue either require additional training or incur extra test-time compute. We present S2D2, a training-free self-speculative decoding framework for block-diffusion language models. Our key observation is that a block-diffusion model becomes autoregressive when the block size is reduced to one, allowing the same pretrained model to act as both drafter and verifier. S2D2 inserts a speculative verification step into standard block-diffusion decoding and uses lightweight routing policies to decide when verification is worth its cost. This yields a hybrid decoding trajectory in which diffusion proposes tokens in parallel, while the autoregressive mode acts as a local sequence-level critic. Across three mainstream block-diffusion families, S2D2 consistently improves the accuracy-speed tradeoff over strong confidence-thresholding baselines. On SDAR, we observe up to 4.7times speedup over autoregressive decoding, and up to 1.57times over a tuned dynamic decoding baseline while improving accuracy by up to 4.5 points. On LLaDA2.1-Mini, S2D2 remains complementary to built-in self-correction, including a conservative setting where it is 4.4times faster than the static baseline with slightly higher accuracy.