Introspectieve Diffusie Taalmodellen
Introspective Diffusion Language Models
April 13, 2026
Auteurs: Yifan Yu, Yuqing Jian, Junxiong Wang, Zhongzhu Zhou, Donglin Zhuang, Xinyu Fang, Sri Yanamandra, Xiaoxia Wu, Qingyang Wu, Shuaiwen Leon Song, Tri Dao, Ben Athiwaratkun, James Zou, Fan Lai, Chenfeng Xu
cs.AI
Samenvatting
Diffusietaalmodellen beloven parallelle generatie, maar blijven achter in kwaliteit ten opzichte van autoregressieve (AR) modellen. Wij wijten deze kloof aan een gebrek aan introspectieve consistentie: AR-modellen zijn het eens met hun eigen gegenereerde output, terwijl DLMs dat vaak niet zijn. Wij definiëren de *introspectieve acceptatiegraad*, die meet of een model zijn eerder gegenereerde tokens accepteert. Dit onthult waarom AR-training een structureel voordeel heeft: causale masking en logit shifting handhaven impliciet introspectieve consistentie. Gemotiveerd door deze observatie introduceren wij het *Introspective Diffusion Language Model* (I-DLM), een paradigma dat parallelle decodering in diffusiestijl behoudt, terwijl het de introspectieve consistentie van AR-training overerft. I-DLM gebruikt een nieuw *introspectief strided decoding* (ISD) algoritme, dat het model in staat stelt om eerder gegenereerde tokens te verifiëren terwijl het nieuwe tokens genereert in dezelfde forward pass. Vanuit een systeemperspectief bouwen wij een I-DLM-inferentie-engine op basis van geërfde AR-optimalisaties en passen deze verder aan met een *stationary-batch scheduler*. Voor zover wij weten, is I-DLM het eerste DLM dat de kwaliteit van zijn AR-evenknie op dezelfde schaal evenaart, terwijl het eerdere DLMs overtreft in zowel modelkwaliteit als praktische servingefficiëntie over 15 benchmarks. Het behaalt 69,6 op AIME-24 en 45,7 op LiveCodeBench-v6, wat respectievelijk meer dan 26 en 15 punten hoger is dan LLaMA-2.1-mini (16B). Naast kwaliteit is I-DLM ontworpen voor de groeiende vraag naar serviceren met een grote gelijktijdigheid, en levert het ongeveer 3x hogere doorvoer dan de vorige state-of-the-art DLMs.
English
Diffusion language models promise parallel generation, yet still lag behind autoregressive (AR) models in quality. We stem this gap to a failure of introspective consistency: AR models agree with their own generations, while DLMs often do not. We define the introspective acceptance rate, which measures whether a model accepts its previously generated tokens. This reveals why AR training has a structural advantage: causal masking and logit shifting implicitly enforce introspective consistency. Motivated by this observation, we introduce Introspective Diffusion Language Model (I-DLM), a paradigm that retains diffusion-style parallel decoding while inheriting the introspective consistency of AR training. I-DLM uses a novel introspective strided decoding (ISD) algorithm, which enables the model to verify previously generated tokens while advancing new ones in the same forward pass. From a systems standpoint, we build I-DLM inference engine on AR-inherited optimizations and further customize it with a stationary-batch scheduler. To the best of our knowledge, I-DLM is the first DLM to match the quality of its same-scale AR counterpart while outperforming prior DLMs in both model quality and practical serving efficiency across 15 benchmarks. It reaches 69.6 on AIME-24 and 45.7 on LiveCodeBench-v6, exceeding LLaDA-2.1-mini (16B) by more than 26 and 15 points, respectively. Beyond quality, I-DLM is designed for the growing demand of large-concurrency serving, delivering about 3x higher throughput than prior state-of-the-art DLMs.