Introspectieve Diffusie Taalmodellen

Samenvatting

Diffusietaalmodellen beloven parallelle generatie, maar blijven achter in kwaliteit ten opzichte van autoregressieve (AR) modellen. Wij wijten deze kloof aan een gebrek aan introspectieve consistentie: AR-modellen zijn het eens met hun eigen gegenereerde output, terwijl DLMs dat vaak niet zijn. Wij definiëren de *introspectieve acceptatiegraad*, die meet of een model zijn eerder gegenereerde tokens accepteert. Dit onthult waarom AR-training een structureel voordeel heeft: causale masking en logit shifting handhaven impliciet introspectieve consistentie. Gemotiveerd door deze observatie introduceren wij het *Introspective Diffusion Language Model* (I-DLM), een paradigma dat parallelle decodering in diffusiestijl behoudt, terwijl het de introspectieve consistentie van AR-training overerft. I-DLM gebruikt een nieuw *introspectief strided decoding* (ISD) algoritme, dat het model in staat stelt om eerder gegenereerde tokens te verifiëren terwijl het nieuwe tokens genereert in dezelfde forward pass. Vanuit een systeemperspectief bouwen wij een I-DLM-inferentie-engine op basis van geërfde AR-optimalisaties en passen deze verder aan met een *stationary-batch scheduler*. Voor zover wij weten, is I-DLM het eerste DLM dat de kwaliteit van zijn AR-evenknie op dezelfde schaal evenaart, terwijl het eerdere DLMs overtreft in zowel modelkwaliteit als praktische servingefficiëntie over 15 benchmarks. Het behaalt 69,6 op AIME-24 en 45,7 op LiveCodeBench-v6, wat respectievelijk meer dan 26 en 15 punten hoger is dan LLaMA-2.1-mini (16B). Naast kwaliteit is I-DLM ontworpen voor de groeiende vraag naar serviceren met een grote gelijktijdigheid, en levert het ongeveer 3x hogere doorvoer dan de vorige state-of-the-art DLMs.

English

Diffusion language models promise parallel generation, yet still lag behind autoregressive (AR) models in quality. We stem this gap to a failure of introspective consistency: AR models agree with their own generations, while DLMs often do not. We define the introspective acceptance rate, which measures whether a model accepts its previously generated tokens. This reveals why AR training has a structural advantage: causal masking and logit shifting implicitly enforce introspective consistency. Motivated by this observation, we introduce Introspective Diffusion Language Model (I-DLM), a paradigm that retains diffusion-style parallel decoding while inheriting the introspective consistency of AR training. I-DLM uses a novel introspective strided decoding (ISD) algorithm, which enables the model to verify previously generated tokens while advancing new ones in the same forward pass. From a systems standpoint, we build I-DLM inference engine on AR-inherited optimizations and further customize it with a stationary-batch scheduler. To the best of our knowledge, I-DLM is the first DLM to match the quality of its same-scale AR counterpart while outperforming prior DLMs in both model quality and practical serving efficiency across 15 benchmarks. It reaches 69.6 on AIME-24 and 45.7 on LiveCodeBench-v6, exceeding LLaDA-2.1-mini (16B) by more than 26 and 15 points, respectively. Beyond quality, I-DLM is designed for the growing demand of large-concurrency serving, delivering about 3x higher throughput than prior state-of-the-art DLMs.

Introspectieve Diffusie Taalmodellen

Introspective Diffusion Language Models

Samenvatting

Support