Modelos de Linguagem de Difusão Introspectiva
Introspective Diffusion Language Models
April 13, 2026
Autores: Yifan Yu, Yuqing Jian, Junxiong Wang, Zhongzhu Zhou, Donglin Zhuang, Xinyu Fang, Sri Yanamandra, Xiaoxia Wu, Qingyang Wu, Shuaiwen Leon Song, Tri Dao, Ben Athiwaratkun, James Zou, Fan Lai, Chenfeng Xu
cs.AI
Resumo
Os modelos de linguagem de difusão prometem geração paralela, mas ainda ficam atrás dos modelos autoregressivos (AR) em qualidade. Atribuímos esta lacuna a uma falha de consistência introspectiva: os modelos AR concordam com as suas próprias gerações, enquanto os modelos de difusão de linguagem (DLM) frequentemente não o fazem. Definimos a taxa de aceitação introspectiva, que mede se um modelo aceita os seus próprios *tokens* previamente gerados. Isto revela porque o treino AR tem uma vantagem estrutural: o *masking* causal e o deslocamento de *logits* impõem implicitamente a consistência introspectiva. Motivados por esta observação, introduzimos o **Modelo de Linguagem de Difusão Introspectiva (I-DLM)**, um paradigma que mantém a descodificação paralela ao estilo de difusão, herdando ao mesmo tempo a consistência introspectiva do treino AR. O I-DLM utiliza um novo algoritmo de descodificação escalonada introspectiva (ISD), que permite ao modelo verificar *tokens* gerados anteriormente, enquanto avança com novos *tokens na mesma passagem direta. Do ponto de vista de sistemas, construímos o motor de inferência do I-DLM com base em otimizações herdadas dos modelos AR e personalizamo-lo ainda mais com um *scheduler* de lotes estacionários. Tanto quanto sabemos, o I-DLM é o primeiro DLM a igualar a qualidade da sua contraparte AR de escala equivalente, superando ainda os DLMs anteriores tanto na qualidade do modelo como na eficiência prática de *serving* em 15 *benchmarks*. Atinge 69,6 no AIME-24 e 45,7 no LiveCodeBench-v6, excedendo o LLaMA-2.1-mini (16B) em mais de 26 e 15 pontos, respetivamente. Para além da qualidade, o I-DLM foi concebido para a crescente procura de *serving* de grande concorrência, oferecendo um *throughput* cerca de 3 vezes superior ao dos DLMs anteriores de última geração.
English
Diffusion language models promise parallel generation, yet still lag behind autoregressive (AR) models in quality. We stem this gap to a failure of introspective consistency: AR models agree with their own generations, while DLMs often do not. We define the introspective acceptance rate, which measures whether a model accepts its previously generated tokens. This reveals why AR training has a structural advantage: causal masking and logit shifting implicitly enforce introspective consistency. Motivated by this observation, we introduce Introspective Diffusion Language Model (I-DLM), a paradigm that retains diffusion-style parallel decoding while inheriting the introspective consistency of AR training. I-DLM uses a novel introspective strided decoding (ISD) algorithm, which enables the model to verify previously generated tokens while advancing new ones in the same forward pass. From a systems standpoint, we build I-DLM inference engine on AR-inherited optimizations and further customize it with a stationary-batch scheduler. To the best of our knowledge, I-DLM is the first DLM to match the quality of its same-scale AR counterpart while outperforming prior DLMs in both model quality and practical serving efficiency across 15 benchmarks. It reaches 69.6 on AIME-24 and 45.7 on LiveCodeBench-v6, exceeding LLaDA-2.1-mini (16B) by more than 26 and 15 points, respectively. Beyond quality, I-DLM is designed for the growing demand of large-concurrency serving, delivering about 3x higher throughput than prior state-of-the-art DLMs.