S2D2 : Décodage rapide pour les LLMs de diffusion via l'auto-spéculation sans apprentissage
S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation
March 26, 2026
Auteurs: Ligong Han, Hao Wang, Han Gao, Kai Xu, Akash Srivastava
cs.AI
Résumé
Les modèles de langage à diffusion par blocs offrent une voie prometteuse pour une génération plus rapide que l'autorégressive en combinant un décodage autorégressif par blocs avec un débruîtage parallèle intra-bloc. Cependant, dans le régime à faible nombre d'étapes nécessaire pour une accélération pratique, le décodage standard par seuil de confiance est souvent fragile : des seuils agressifs nuisent à la qualité, tandis que des seuils conservateurs nécessitent des étapes de débruîtage superflues. Les approches existantes qui traitent ce problème nécessitent soit un apprentissage supplémentaire, soit un surcoût computationnel au moment du test. Nous présentons S2D2, un cadre de décodage auto-spéculatif sans apprentissage pour les modèles de langage à diffusion par blocs. Notre observation clé est qu'un modèle de diffusion par blocs devient autorégressif lorsque la taille du bloc est réduite à un, permettant au même modèle pré-entraîné d'agir à la fois comme ébaucheur et vérificateur. S2D2 insère une étape de vérification spéculative dans le décodage standard par diffusion de blocs et utilise des politiques de routage légères pour décider quand la vérification mérite son coût. Cela produit une trajectoire de décodage hybride dans laquelle la diffusion propose des jetons en parallèle, tandis que le mode autorégressif agit comme un critique local au niveau de la séquence. Sur trois familles principales de diffusion par blocs, S2D2 améliore constamment le compromis précision-vitesse par rapport à des bases de référence solides utilisant le seuillage de confiance. Sur SDAR, nous observons une accélération allant jusqu'à 4,7 fois par rapport au décodage autorégressif, et jusqu'à 1,57 fois par rapport à une base de référence à décodage dynamique réglée, tout en améliorant la précision jusqu'à 4,5 points. Sur LLaDA2.1-Mini, S2D2 reste complémentaire à l'auto-correction intégrée, y compris dans un paramétrage conservateur où il est 4,4 fois plus rapide que la base de référence statique avec une précision légèrement supérieure.
English
Block-diffusion language models offer a promising path toward faster-than-autoregressive generation by combining block-wise autoregressive decoding with within-block parallel denoising. However, in the few-step regime needed for practical acceleration, standard confidence-thresholded decoding is often brittle: aggressive thresholds hurt quality, while conservative thresholds require unnecessary denoising steps. Existing approaches that address this issue either require additional training or incur extra test-time compute. We present S2D2, a training-free self-speculative decoding framework for block-diffusion language models. Our key observation is that a block-diffusion model becomes autoregressive when the block size is reduced to one, allowing the same pretrained model to act as both drafter and verifier. S2D2 inserts a speculative verification step into standard block-diffusion decoding and uses lightweight routing policies to decide when verification is worth its cost. This yields a hybrid decoding trajectory in which diffusion proposes tokens in parallel, while the autoregressive mode acts as a local sequence-level critic. Across three mainstream block-diffusion families, S2D2 consistently improves the accuracy-speed tradeoff over strong confidence-thresholding baselines. On SDAR, we observe up to 4.7times speedup over autoregressive decoding, and up to 1.57times over a tuned dynamic decoding baseline while improving accuracy by up to 4.5 points. On LLaDA2.1-Mini, S2D2 remains complementary to built-in self-correction, including a conservative setting where it is 4.4times faster than the static baseline with slightly higher accuracy.