Modelli Linguistici di Diffusione Introspettiva
Introspective Diffusion Language Models
April 13, 2026
Autori: Yifan Yu, Yuqing Jian, Junxiong Wang, Zhongzhu Zhou, Donglin Zhuang, Xinyu Fang, Sri Yanamandra, Xiaoxia Wu, Qingyang Wu, Shuaiwen Leon Song, Tri Dao, Ben Athiwaratkun, James Zou, Fan Lai, Chenfeng Xu
cs.AI
Abstract
I modelli linguistici di diffusione promettono una generazione parallela, ma rimangono ancora inferiori ai modelli autoregressivi (AR) in termini di qualità. Attribuiamo questo divario a un fallimento della coerenza introspettiva: i modelli AR sono coerenti con le proprie generazioni, mentre i DLM spesso non lo sono. Definiamo il tasso di accettazione introspettiva, che misura se un modello accetta i propri token generati in precedenza. Ciò rivela perché l'addestramento AR abbia un vantaggio strutturale: il masking causale e lo shifting dei logit impongono implicitamente la coerenza introspettiva. Sulla base di questa osservazione, introduciamo l'Introspective Diffusion Language Model (I-DLM), un paradigma che mantiene il decoding parallelo di tipo diffusion mentre eredita la coerenza introspettiva dell'addestramento AR. I-DLM utilizza un nuovo algoritmo di decoding a passi introspettivo (ISD), che consente al modello di verificare i token generati in precedenza mentre ne avanza di nuovi nello stesso passaggio in avanti. Dal punto di vista dei sistemi, costruiamo il motore di inferenza di I-DLM su ottimizzazioni ereditate dall'AR e lo personalizziamo ulteriormente con uno scheduler a batch stazionario. Per quanto a nostra conoscenza, I-DLM è il primo DLM a eguagliare la qualità della sua controparte AR della stessa scala, superando al contempo i DLM precedenti sia nella qualità del modello che nell'efficienza pratica di servizio su 15 benchmark. Raggiunge 69,6 su AIME-24 e 45,7 su LiveCodeBench-v6, superando rispettivamente LLaMA-2.1-mini (16B) di oltre 26 e 15 punti. Oltre alla qualità, I-DLM è progettato per la crescente domanda di servizi con elevata concorrenza, offrendo un throughput circa 3 volte superiore rispetto ai precedenti DLM all'avanguardia.
English
Diffusion language models promise parallel generation, yet still lag behind autoregressive (AR) models in quality. We stem this gap to a failure of introspective consistency: AR models agree with their own generations, while DLMs often do not. We define the introspective acceptance rate, which measures whether a model accepts its previously generated tokens. This reveals why AR training has a structural advantage: causal masking and logit shifting implicitly enforce introspective consistency. Motivated by this observation, we introduce Introspective Diffusion Language Model (I-DLM), a paradigm that retains diffusion-style parallel decoding while inheriting the introspective consistency of AR training. I-DLM uses a novel introspective strided decoding (ISD) algorithm, which enables the model to verify previously generated tokens while advancing new ones in the same forward pass. From a systems standpoint, we build I-DLM inference engine on AR-inherited optimizations and further customize it with a stationary-batch scheduler. To the best of our knowledge, I-DLM is the first DLM to match the quality of its same-scale AR counterpart while outperforming prior DLMs in both model quality and practical serving efficiency across 15 benchmarks. It reaches 69.6 on AIME-24 and 45.7 on LiveCodeBench-v6, exceeding LLaDA-2.1-mini (16B) by more than 26 and 15 points, respectively. Beyond quality, I-DLM is designed for the growing demand of large-concurrency serving, delivering about 3x higher throughput than prior state-of-the-art DLMs.