Diffusie in Diffusie: Terugwinning van Globale Coherentie in Semi-Autoregressieve Diffusie

Samenvatting

Een van de meest overtuigende kenmerken van globale discrete diffusietaalmodellen is hun wereldwijde bidirectionele contextuele vermogen. Bestaande blokgebaseerde diffusiestudies introduceren echter vaak autoregressieve priors, die weliswaar voordelen bieden, maar ertoe kunnen leiden dat modellen deze globale samenhang op macroniveau verliezen. Om het wereldwijde contextbegrip te herwinnen en tegelijk de voordelen van het semi-autoregressieve paradigma te behouden, presenteren wij Diffusion in Diffusion: een 'klad-versie-then-verfijnen'-raamwerk ontworpen om de onomkeerbaarheid en kortzichtigheid inherent aan blokdiffusiemodellen te overwinnen. Onze aanzet gebruikt eerst blokdiffusie om snelle kladversies met kleine blokken te genereren, en verfijnt deze vervolgens via globale bidirectionele diffusie met een groter bidirectioneel receptief veld. Wij passen snapshot-vertrouwenshermaskering toe om de meest kritieke tokens te identificeren die wijziging behoeven, en gebruiken mixed-schaal training om de globale capaciteiten van het blokdiffusiemodel uit te breiden. Empirische resultaten tonen aan dat onze aanzet een nieuwe standaard zet voor discrete diffusiemodellen op de OpenWebText-dataset. Met slechts 26% van het fine-tuningbudget van baseline-modellen verlagen wij de generatieve perplexiteit van 25,7 naar 21,9, waardoor de prestatiekloof met autoregressieve modellen aanzienlijk wordt verkleind.

English

One of the most compelling features of global discrete diffusion language models is their global bidirectional contextual capability. However, existing block-based diffusion studies tend to introduce autoregressive priors, which, while offering benefits, can cause models to lose this global coherence at the macro level. To regain global contextual understanding while preserving the advantages of the semi-autoregressive paradigm, we propose Diffusion in Diffusion, a 'draft-then-refine' framework designed to overcome the irreversibility and myopia problems inherent in block diffusion models. Our approach first employs block diffusion to generate rapid drafts using small blocks, then refines these drafts through global bidirectional diffusion with a larger bidirectional receptive field. We utilize snapshot confidence remasking to identify the most critical tokens that require modification, and apply mix-scale training to expand the block diffusion model's global capabilities. Empirical results demonstrate that our approach sets a new benchmark for discrete diffusion models on the OpenWebText dataset. Using only 26% of the fine-tuning budget of baseline models, we reduce generative perplexity from 25.7 to 21.9, significantly narrowing the performance gap with autoregressive models.

Diffusie in Diffusie: Terugwinning van Globale Coherentie in Semi-Autoregressieve Diffusie

Diffusion In Diffusion: Reclaiming Global Coherence in Semi-Autoregressive Diffusion

Samenvatting

Support