ChatPaper.aiChatPaper

Diffusion in Diffusion: Wiederherstellung globaler Kohärenz in semi-autoregressiven Diffusionsmodellen

Diffusion In Diffusion: Reclaiming Global Coherence in Semi-Autoregressive Diffusion

January 20, 2026
papers.authors: Linrui Ma, Yufei Cui, Kai Han, Yunhe Wang
cs.AI

papers.abstract

Eine der überzeugendsten Eigenschaften globaler diskreter Diffusions-Sprachmodelle ist ihre globale bidirektionale Kontextfähigkeit. Allerdings neigen bestehende blockbasierte Diffusionsstudien dazu, autoregressive Priors einzuführen, die zwar Vorteile bieten, aber dazu führen können, dass Modelle diese globale Kohärenz auf Makroebene verlieren. Um das globale Kontextverständnis zurückzugewinnen und gleichzeitig die Vorteile des semi-autoregressiven Paradigmas zu bewahren, schlagen wir Diffusion in Diffusion vor, einen "Entwurf-dann-Verfeinerung"-Rahmen, der entwickelt wurde, um die Irreversibilitäts- und Kurzsichtigkeitsprobleme inhärenter Blockdiffusionsmodelle zu überwinden. Unser Ansatz verwendet zunächst Blockdiffusion, um schnelle Entwürfe mit kleinen Blöcken zu generieren, und verfeinert diese Entwürfe dann durch globale bidirektionale Diffusion mit einem größeren bidirektionalen rezeptiven Feld. Wir nutzen Snapshot-Konfidenz-Neumaskierung, um die kritischsten Token zu identifizieren, die Änderungen erfordern, und wenden Mix-Scale-Training an, um die globalen Fähigkeiten des Blockdiffusionsmodells zu erweitern. Empirische Ergebnisse zeigen, dass unser Ansatz einen neuen Maßstab für diskrete Diffusionsmodelle auf dem OpenWebText-Datensatz setzt. Mit nur 26% des Feinabstimmungsbudgets der Baseline-Modelle reduzieren wir die generative Perplexität von 25,7 auf 21,9 und verringern so die Leistungslücke zu autoregressiven Modellen erheblich.
English
One of the most compelling features of global discrete diffusion language models is their global bidirectional contextual capability. However, existing block-based diffusion studies tend to introduce autoregressive priors, which, while offering benefits, can cause models to lose this global coherence at the macro level. To regain global contextual understanding while preserving the advantages of the semi-autoregressive paradigm, we propose Diffusion in Diffusion, a 'draft-then-refine' framework designed to overcome the irreversibility and myopia problems inherent in block diffusion models. Our approach first employs block diffusion to generate rapid drafts using small blocks, then refines these drafts through global bidirectional diffusion with a larger bidirectional receptive field. We utilize snapshot confidence remasking to identify the most critical tokens that require modification, and apply mix-scale training to expand the block diffusion model's global capabilities. Empirical results demonstrate that our approach sets a new benchmark for discrete diffusion models on the OpenWebText dataset. Using only 26% of the fine-tuning budget of baseline models, we reduce generative perplexity from 25.7 to 21.9, significantly narrowing the performance gap with autoregressive models.
PDF32January 28, 2026