Diffusione nella Diffusione: Recuperare la Coerenza Globale nella Diffusione Semi-Autoregressiva
Diffusion In Diffusion: Reclaiming Global Coherence in Semi-Autoregressive Diffusion
January 20, 2026
Autori: Linrui Ma, Yufei Cui, Kai Han, Yunhe Wang
cs.AI
Abstract
Uno degli aspetti più convincenti dei modelli linguistici di diffusione discreta globale è la loro capacità contestuale bidirezionale globale. Tuttavia, gli studi esistenti sulla diffusione basata su blocchi tendono a introdurre prior autoregressivi che, sebbene offrano vantaggi, possono far perdere ai modelli questa coerenza globale a livello macro. Per riconquistare la comprensione contestuale globale preservando i vantaggi del paradigma semi-autoregressivo, proponiamo Diffusion in Diffusion, un framework "bozza-poi-affina" progettato per superare i problemi di irreversibilità e miopia intrinseci ai modelli di diffusione a blocchi. Il nostro approccio impiega prima la diffusione a blocchi per generare bozze rapide utilizzando piccoli blocchi, per poi affinare queste bozze attraverso una diffusione bidirezionale globale con un campo recettivo bidirezionale più ampio. Utilizziamo il remasking della confidenza degli snapshot per identificare i token più critici che richiedono modifiche e applichiamo l'addestramento a scala mista per espandere le capacità globali del modello di diffusione a blocchi. I risultati empirici dimostrano che il nostro approccio stabilisce un nuovo punto di riferimento per i modelli di diffusione discreta sul dataset OpenWebText. Utilizzando solo il 26% del budget di fine-tuning dei modelli di riferimento, riduciamo la perplessità generativa da 25,7 a 21,9, riducendo significativamente il divario prestazionale con i modelli autoregressivi.
English
One of the most compelling features of global discrete diffusion language models is their global bidirectional contextual capability. However, existing block-based diffusion studies tend to introduce autoregressive priors, which, while offering benefits, can cause models to lose this global coherence at the macro level. To regain global contextual understanding while preserving the advantages of the semi-autoregressive paradigm, we propose Diffusion in Diffusion, a 'draft-then-refine' framework designed to overcome the irreversibility and myopia problems inherent in block diffusion models. Our approach first employs block diffusion to generate rapid drafts using small blocks, then refines these drafts through global bidirectional diffusion with a larger bidirectional receptive field. We utilize snapshot confidence remasking to identify the most critical tokens that require modification, and apply mix-scale training to expand the block diffusion model's global capabilities. Empirical results demonstrate that our approach sets a new benchmark for discrete diffusion models on the OpenWebText dataset. Using only 26% of the fine-tuning budget of baseline models, we reduce generative perplexity from 25.7 to 21.9, significantly narrowing the performance gap with autoregressive models.