Modelos de Lenguaje de Difusión Introspectiva
Introspective Diffusion Language Models
April 13, 2026
Autores: Yifan Yu, Yuqing Jian, Junxiong Wang, Zhongzhu Zhou, Donglin Zhuang, Xinyu Fang, Sri Yanamandra, Xiaoxia Wu, Qingyang Wu, Shuaiwen Leon Song, Tri Dao, Ben Athiwaratkun, James Zou, Fan Lai, Chenfeng Xu
cs.AI
Resumen
Los modelos de lenguaje de difusión prometen generación paralela, pero aún están por detrás de los modelos autorregresivos (AR) en calidad. Atribuimos esta brecha a una falta de consistencia introspectiva: los modelos AR concuerdan con sus propias generaciones, mientras que los modelos de lenguaje de difusión (DLM) a menudo no lo hacen. Definimos la tasa de aceptación introspectiva, que mide si un modelo acepta sus tokens generados previamente. Esto revela por qué el entrenamiento AR tiene una ventaja estructural: el enmascaramiento causal y el desplazamiento de logits imponen implícitamente la consistencia introspectiva. Motivados por esta observación, presentamos el Modelo de Lenguaje de Difusión Introspectivo (I-DLM), un paradigma que conserva la decodificación paralela estilo difusión mientras hereda la consistencia introspectiva del entrenamiento AR. I-DLM utiliza un novedoso algoritmo de decodificación segmentada introspectiva (ISD), que permite al modelo verificar los tokens generados previamente mientras avanza nuevos tokens en la misma pasada hacia adelante. Desde una perspectiva de sistemas, construimos el motor de inferencia de I-DLM sobre optimizaciones heredadas de AR y lo personalizamos aún más con un planificador de lotes estacionarios. Hasta donde sabemos, I-DLM es el primer DLM que iguala la calidad de su contraparte AR de la misma escala, superando a los DLM anteriores tanto en calidad del modelo como en eficiencia práctica de servicio en 15 benchmarks. Alcanza 69.6 en AIME-24 y 45.7 en LiveCodeBench-v6, superando a LLaMA-2.1-mini (16B) por más de 26 y 15 puntos, respectivamente. Más allá de la calidad, I-DLM está diseñado para la creciente demanda de servicio de gran concurrencia, ofreciendo un rendimiento aproximadamente 3 veces mayor que los DLM de última generación anteriores.
English
Diffusion language models promise parallel generation, yet still lag behind autoregressive (AR) models in quality. We stem this gap to a failure of introspective consistency: AR models agree with their own generations, while DLMs often do not. We define the introspective acceptance rate, which measures whether a model accepts its previously generated tokens. This reveals why AR training has a structural advantage: causal masking and logit shifting implicitly enforce introspective consistency. Motivated by this observation, we introduce Introspective Diffusion Language Model (I-DLM), a paradigm that retains diffusion-style parallel decoding while inheriting the introspective consistency of AR training. I-DLM uses a novel introspective strided decoding (ISD) algorithm, which enables the model to verify previously generated tokens while advancing new ones in the same forward pass. From a systems standpoint, we build I-DLM inference engine on AR-inherited optimizations and further customize it with a stationary-batch scheduler. To the best of our knowledge, I-DLM is the first DLM to match the quality of its same-scale AR counterpart while outperforming prior DLMs in both model quality and practical serving efficiency across 15 benchmarks. It reaches 69.6 on AIME-24 and 45.7 on LiveCodeBench-v6, exceeding LLaDA-2.1-mini (16B) by more than 26 and 15 points, respectively. Beyond quality, I-DLM is designed for the growing demand of large-concurrency serving, delivering about 3x higher throughput than prior state-of-the-art DLMs.