Introspektive Diffusionssprachmodelle

Zusammenfassung

Diffusions-Sprachmodelle versprechen parallele Generierung, hinken jedoch autoregressiven (AR) Modellen qualitativ noch hinterher. Wir führen diese Lücke auf einen Mangel an introspektiver Konsistenz zurück: AR-Modelle stimmen mit ihren eigenen Generierungen überein, während DLMs dies oft nicht tun. Wir definieren die introspektive Akzeptanzrate, die misst, ob ein Modell seine zuvor generierten Tokens akzeptiert. Dies zeigt, warum AR-Training einen strukturellen Vorteil hat: Kausales Maskieren und Logit-Shifting erzwingen implizit introspektive Konsistenz. Angeregt durch diese Beobachtung führen wir das Introspective Diffusion Language Model (I-DLM) ein, ein Paradigma, das die parallele Decodierung im Diffusionsstil beibehält, gleichzeitig aber die introspektive Konsistenz des AR-Trainings erbt. I-DLM verwendet einen neuartigen introspektiven gestaffelten Decodierungsalgorithmus (ISD), der es dem Modell ermöglicht, zuvor generierte Tokens zu verifizieren und gleichzeitig neue in demselben Vorwärtsdurchlauf zu erzeugen. Aus systemtechnischer Sicht bauen wir die I-DLM-Inferenz-Engine auf geerbten AR-Optimierungen auf und erweitern sie mit einem Stationary-Batch-Scheduler. Nach unserem Wissen ist I-DLM das erste DLM, das die Qualität seines AR-Pendants gleicher Größe erreicht und gleichzeitig frühere DLMs in sowohl Modellqualität als auch praktischer Effizienz im Betrieb über 15 Benchmarks hinweg übertrifft. Es erreicht 69,6 auf AIME-24 und 45,7 auf LiveCodeBench-v6 und übertrifft LLaMA-2.1-mini (16B) um mehr als 26 bzw. 15 Punkte. Über die Qualität hinaus ist I-DLM für die wachsende Nachfrage nach Serving mit hoher Nebenläufigkeit konzipiert und liefert einen etwa 3-fach höheren Durchsatz als bisherige state-of-the-art DLMs.

English

Diffusion language models promise parallel generation, yet still lag behind autoregressive (AR) models in quality. We stem this gap to a failure of introspective consistency: AR models agree with their own generations, while DLMs often do not. We define the introspective acceptance rate, which measures whether a model accepts its previously generated tokens. This reveals why AR training has a structural advantage: causal masking and logit shifting implicitly enforce introspective consistency. Motivated by this observation, we introduce Introspective Diffusion Language Model (I-DLM), a paradigm that retains diffusion-style parallel decoding while inheriting the introspective consistency of AR training. I-DLM uses a novel introspective strided decoding (ISD) algorithm, which enables the model to verify previously generated tokens while advancing new ones in the same forward pass. From a systems standpoint, we build I-DLM inference engine on AR-inherited optimizations and further customize it with a stationary-batch scheduler. To the best of our knowledge, I-DLM is the first DLM to match the quality of its same-scale AR counterpart while outperforming prior DLMs in both model quality and practical serving efficiency across 15 benchmarks. It reaches 69.6 on AIME-24 and 45.7 on LiveCodeBench-v6, exceeding LLaDA-2.1-mini (16B) by more than 26 and 15 points, respectively. Beyond quality, I-DLM is designed for the growing demand of large-concurrency serving, delivering about 3x higher throughput than prior state-of-the-art DLMs.

Introspektive Diffusionssprachmodelle

Introspective Diffusion Language Models

Zusammenfassung

Support