Modelli Linguistici di Diffusione Introspettiva

Abstract

I modelli linguistici di diffusione promettono una generazione parallela, ma rimangono ancora inferiori ai modelli autoregressivi (AR) in termini di qualità. Attribuiamo questo divario a un fallimento della coerenza introspettiva: i modelli AR sono coerenti con le proprie generazioni, mentre i DLM spesso non lo sono. Definiamo il tasso di accettazione introspettiva, che misura se un modello accetta i propri token generati in precedenza. Ciò rivela perché l'addestramento AR abbia un vantaggio strutturale: il masking causale e lo shifting dei logit impongono implicitamente la coerenza introspettiva. Sulla base di questa osservazione, introduciamo l'Introspective Diffusion Language Model (I-DLM), un paradigma che mantiene il decoding parallelo di tipo diffusion mentre eredita la coerenza introspettiva dell'addestramento AR. I-DLM utilizza un nuovo algoritmo di decoding a passi introspettivo (ISD), che consente al modello di verificare i token generati in precedenza mentre ne avanza di nuovi nello stesso passaggio in avanti. Dal punto di vista dei sistemi, costruiamo il motore di inferenza di I-DLM su ottimizzazioni ereditate dall'AR e lo personalizziamo ulteriormente con uno scheduler a batch stazionario. Per quanto a nostra conoscenza, I-DLM è il primo DLM a eguagliare la qualità della sua controparte AR della stessa scala, superando al contempo i DLM precedenti sia nella qualità del modello che nell'efficienza pratica di servizio su 15 benchmark. Raggiunge 69,6 su AIME-24 e 45,7 su LiveCodeBench-v6, superando rispettivamente LLaMA-2.1-mini (16B) di oltre 26 e 15 punti. Oltre alla qualità, I-DLM è progettato per la crescente domanda di servizi con elevata concorrenza, offrendo un throughput circa 3 volte superiore rispetto ai precedenti DLM all'avanguardia.

English

Diffusion language models promise parallel generation, yet still lag behind autoregressive (AR) models in quality. We stem this gap to a failure of introspective consistency: AR models agree with their own generations, while DLMs often do not. We define the introspective acceptance rate, which measures whether a model accepts its previously generated tokens. This reveals why AR training has a structural advantage: causal masking and logit shifting implicitly enforce introspective consistency. Motivated by this observation, we introduce Introspective Diffusion Language Model (I-DLM), a paradigm that retains diffusion-style parallel decoding while inheriting the introspective consistency of AR training. I-DLM uses a novel introspective strided decoding (ISD) algorithm, which enables the model to verify previously generated tokens while advancing new ones in the same forward pass. From a systems standpoint, we build I-DLM inference engine on AR-inherited optimizations and further customize it with a stationary-batch scheduler. To the best of our knowledge, I-DLM is the first DLM to match the quality of its same-scale AR counterpart while outperforming prior DLMs in both model quality and practical serving efficiency across 15 benchmarks. It reaches 69.6 on AIME-24 and 45.7 on LiveCodeBench-v6, exceeding LLaDA-2.1-mini (16B) by more than 26 and 15 points, respectively. Beyond quality, I-DLM is designed for the growing demand of large-concurrency serving, delivering about 3x higher throughput than prior state-of-the-art DLMs.

Modelli Linguistici di Diffusione Introspettiva

Introspective Diffusion Language Models

Abstract

Support