Difusão na Difusão: Recuperando a Coerência Global em Difusão Semi-Autorregressiva

Resumo

Uma das características mais convincentes dos modelos de linguagem de difusão discreta global é sua capacidade contextual bidirecional global. No entanto, os estudos existentes sobre difusão baseada em blocos tendem a introduzir premissas autorregressivas que, embora ofereçam benefícios, podem fazer com que os modelos percam essa coerência global em nível macro. Para recuperar a compreensão contextual global enquanto preservamos as vantagens do paradigma semiautorregressivo, propomos o Difusão na Difusão, uma estrutura "rascunhar-depois-refinar" projetada para superar os problemas de irreversibilidade e miopia inerentes aos modelos de difusão em blocos. Nossa abordagem emprega primeiro a difusão em blocos para gerar rascunhos rápidos usando blocos pequenos e, em seguida, refina esses rascunhos por meio de difusão bidirecional global com um campo receptivo bidirecional maior. Utilizamos o remascaramento de confiança por instantâneo para identificar os tokens mais críticos que requerem modificação e aplicamos o treinamento em escala mista para expandir as capacidades globais do modelo de difusão em blocos. Resultados empíricos demonstram que nossa abordagem estabelece um novo padrão de referência para modelos de difusão discreta no conjunto de dados OpenWebText. Utilizando apenas 26% do orçamento de ajuste fino dos modelos de base, reduzimos a perplexidade gerativa de 25,7 para 21,9, estreitando significativamente a lacuna de desempenho com modelos autorregressivos.

English

One of the most compelling features of global discrete diffusion language models is their global bidirectional contextual capability. However, existing block-based diffusion studies tend to introduce autoregressive priors, which, while offering benefits, can cause models to lose this global coherence at the macro level. To regain global contextual understanding while preserving the advantages of the semi-autoregressive paradigm, we propose Diffusion in Diffusion, a 'draft-then-refine' framework designed to overcome the irreversibility and myopia problems inherent in block diffusion models. Our approach first employs block diffusion to generate rapid drafts using small blocks, then refines these drafts through global bidirectional diffusion with a larger bidirectional receptive field. We utilize snapshot confidence remasking to identify the most critical tokens that require modification, and apply mix-scale training to expand the block diffusion model's global capabilities. Empirical results demonstrate that our approach sets a new benchmark for discrete diffusion models on the OpenWebText dataset. Using only 26% of the fine-tuning budget of baseline models, we reduce generative perplexity from 25.7 to 21.9, significantly narrowing the performance gap with autoregressive models.

Difusão na Difusão: Recuperando a Coerência Global em Difusão Semi-Autorregressiva

Diffusion In Diffusion: Reclaiming Global Coherence in Semi-Autoregressive Diffusion

Resumo

Support