S2D2: Schnelles Dekodieren für Diffusions-LLMs durch trainingsfreie Selbst-Spekulation
S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation
March 26, 2026
Autoren: Ligong Han, Hao Wang, Han Gao, Kai Xu, Akash Srivastava
cs.AI
Zusammenfassung
Block-Diffusion-Sprachmodelle bieten einen vielversprechenden Ansatz für schneller-als-autoregressive Generierung, indem sie blockweise autoregressives Decodieren mit parallelem Denoising innerhalb eines Blocks kombinieren. Im Few-Step-Bereich, der für praktische Beschleunigung nötig ist, erweist sich jedoch standardmäßiges, konfidenzbasiertes Decodieren oft als spröde: aggressive Schwellenwerte beeinträchtigen die Qualität, während konservative Schwellenwerte unnötige Denoising-Schritte erfordern. Bestehende Ansätze zur Lösung dieses Problems erfordern entweder zusätzliches Training oder verursachen höheren Rechenaufwand zur Laufzeit. Wir stellen S2D2 vor, ein trainierungsfreies Self-Speculative-Decoding-Framework für Block-Diffusion-Sprachmodelle. Unsere zentrale Erkenntnis ist, dass ein Block-Diffusion-Modell autoregressiv wird, wenn die Blockgröße auf eins reduziert wird, was es demselben vortrainierten Modell ermöglicht, sowohl als Draft- als auch als Verifikationsmodell zu agieren. S2D2 fügt einen spekulativen Verifikationsschritt in das standardmäßige Block-Diffusion-Decoding ein und verwendet leichtgewichtige Routing-Policies, um zu entscheiden, wann sich eine Verifikation lohnt. Dies führt zu einer hybriden Decoding-Trajektorie, bei der die Diffusion Token parallel vorschlägt, während der autoregressive Modus als lokaler Sequenzkritiker fungiert. Über drei gängige Block-Diffusion-Familien hinweg verbessert S2D2 konsistent den Kompromiss zwischen Genauigkeit und Geschwindigkeit gegenüber starken Konfidenzschwellenwert-Baselines. Bei SDAR beobachten wir eine bis zu 4,7-fache Beschleunigung gegenüber autoregressivem Decoding und eine bis zu 1,57-fache Beschleunigung gegenüber einer optimierten dynamischen Decoding-Baseline bei gleichzeitiger Verbesserung der Genauigkeit um bis zu 4,5 Punkte. Bei LLaDA2.1-Mini bleibt S2D2 komplementär zur eingebauten Selbstkorrektur, einschließlich eines konservativen Settings, in dem es 4,4-mal schneller als die statische Baseline ist bei leicht höherer Genauigkeit.
English
Block-diffusion language models offer a promising path toward faster-than-autoregressive generation by combining block-wise autoregressive decoding with within-block parallel denoising. However, in the few-step regime needed for practical acceleration, standard confidence-thresholded decoding is often brittle: aggressive thresholds hurt quality, while conservative thresholds require unnecessary denoising steps. Existing approaches that address this issue either require additional training or incur extra test-time compute. We present S2D2, a training-free self-speculative decoding framework for block-diffusion language models. Our key observation is that a block-diffusion model becomes autoregressive when the block size is reduced to one, allowing the same pretrained model to act as both drafter and verifier. S2D2 inserts a speculative verification step into standard block-diffusion decoding and uses lightweight routing policies to decide when verification is worth its cost. This yields a hybrid decoding trajectory in which diffusion proposes tokens in parallel, while the autoregressive mode acts as a local sequence-level critic. Across three mainstream block-diffusion families, S2D2 consistently improves the accuracy-speed tradeoff over strong confidence-thresholding baselines. On SDAR, we observe up to 4.7times speedup over autoregressive decoding, and up to 1.57times over a tuned dynamic decoding baseline while improving accuracy by up to 4.5 points. On LLaDA2.1-Mini, S2D2 remains complementary to built-in self-correction, including a conservative setting where it is 4.4times faster than the static baseline with slightly higher accuracy.