拡散の中の拡散:半自己回帰的拡散における大域的コヒーレンスの回復
Diffusion In Diffusion: Reclaiming Global Coherence in Semi-Autoregressive Diffusion
January 20, 2026
著者: Linrui Ma, Yufei Cui, Kai Han, Yunhe Wang
cs.AI
要旨
グローバル離散拡散言語モデルの最も注目すべき特徴の一つは、そのグローバルな双方向コンテキスト能力である。しかし、既存のブロックベース拡散研究では自己回帰的な事前分布を導入する傾向があり、これは利点がある一方で、モデルが巨視的なレベルでこのグローバルな一貫性を失う原因となりうる。半自己回帰パラダイムの利点を保持しつつグローバルな文脈理解を再獲得するため、我々はブロック拡散モデルに内在する不可逆性と近視性の問題を克服する「草案後精緻化」フレームワーク、Diffusion in Diffusionを提案する。本手法はまず、小ブロックを用いた高速な草案生成をブロック拡散で行い、続いてより大きな双方向受容野を持つグローバル双方向拡散によりこれらの草案を精緻化する。スナップショット信頼度再マスキングを用いて修正が必要な最重要トークンを特定し、ミックススケール訓練を適用してブロック拡散モデルのグローバル能力を拡張する。実験結果は、本手法がOpenWebTextデータセットにおいて離散拡散モデルの新たなベンチマークを確立することを示している。ベースラインモデルの微調整予算の僅か26%を使用して、生成パープレキシティを25.7から21.9に削減し、自己回帰モデルとの性能差を大幅に狭めることに成功した。
English
One of the most compelling features of global discrete diffusion language models is their global bidirectional contextual capability. However, existing block-based diffusion studies tend to introduce autoregressive priors, which, while offering benefits, can cause models to lose this global coherence at the macro level. To regain global contextual understanding while preserving the advantages of the semi-autoregressive paradigm, we propose Diffusion in Diffusion, a 'draft-then-refine' framework designed to overcome the irreversibility and myopia problems inherent in block diffusion models. Our approach first employs block diffusion to generate rapid drafts using small blocks, then refines these drafts through global bidirectional diffusion with a larger bidirectional receptive field. We utilize snapshot confidence remasking to identify the most critical tokens that require modification, and apply mix-scale training to expand the block diffusion model's global capabilities. Empirical results demonstrate that our approach sets a new benchmark for discrete diffusion models on the OpenWebText dataset. Using only 26% of the fine-tuning budget of baseline models, we reduce generative perplexity from 25.7 to 21.9, significantly narrowing the performance gap with autoregressive models.