ChatPaper.aiChatPaper

Интроспективные диффузионные языковые модели

Introspective Diffusion Language Models

April 13, 2026
Авторы: Yifan Yu, Yuqing Jian, Junxiong Wang, Zhongzhu Zhou, Donglin Zhuang, Xinyu Fang, Sri Yanamandra, Xiaoxia Wu, Qingyang Wu, Shuaiwen Leon Song, Tri Dao, Ben Athiwaratkun, James Zou, Fan Lai, Chenfeng Xu
cs.AI

Аннотация

Диффузионные языковые модели обещают параллельную генерацию, но все еще уступают авторегрессионным (AR) моделям по качеству. Мы связываем этот разрыв с нарушением интроспективной согласованности: AR-модели согласуются с собственными генерациями, в то время как диффузионные языковые модели (DLM) часто этого не делают. Мы определяем показатель интроспективного принятия, который измеряет, принимает ли модель свои ранее сгенерированные токены. Это раскрывает, почему AR-обучение имеет структурное преимущество: каузальное маскирование и сдвиг логитов неявно обеспечивают интроспективную согласованность. Руководствуясь этим наблюдением, мы представляем Introspective Diffusion Language Model (I-DLM) — парадигму, которая сохраняет параллельное декодирование в стиле диффузии, наследуя при этом интроспективную согласованность AR-обучения. I-DLM использует новый алгоритм интроспективного страйдового декодирования (ISD), позволяющий модели проверять ранее сгенерированные токены, одновременно продвигая новые за один прямой проход. С системной точки зрения, мы строим механизм вывода I-DLM на основе унаследованных от AR оптимизаций и дополнительно адаптируем его с помощью планировщика со стационарными батчами. Насколько нам известно, I-DLM является первой DLM, которая по качеству соответствует AR-аналогу того же масштаба, превосходя предыдущие DLM как по качеству модели, так и по практической эффективности обслуживания в 15 бенчмарках. Она достигает 69.6 баллов на AIME-24 и 45.7 на LiveCodeBench-v6, опережая LLaMA-2.1-mini (16B) более чем на 26 и 15 баллов соответственно. Помимо качества, I-DLM разработана для растущего спроса на обслуживание с высокой конкурентностью, обеспечивая примерно в 3 раза более высокую пропускную способность по сравнению с предыдущими передовыми DLM.
English
Diffusion language models promise parallel generation, yet still lag behind autoregressive (AR) models in quality. We stem this gap to a failure of introspective consistency: AR models agree with their own generations, while DLMs often do not. We define the introspective acceptance rate, which measures whether a model accepts its previously generated tokens. This reveals why AR training has a structural advantage: causal masking and logit shifting implicitly enforce introspective consistency. Motivated by this observation, we introduce Introspective Diffusion Language Model (I-DLM), a paradigm that retains diffusion-style parallel decoding while inheriting the introspective consistency of AR training. I-DLM uses a novel introspective strided decoding (ISD) algorithm, which enables the model to verify previously generated tokens while advancing new ones in the same forward pass. From a systems standpoint, we build I-DLM inference engine on AR-inherited optimizations and further customize it with a stationary-batch scheduler. To the best of our knowledge, I-DLM is the first DLM to match the quality of its same-scale AR counterpart while outperforming prior DLMs in both model quality and practical serving efficiency across 15 benchmarks. It reaches 69.6 on AIME-24 and 45.7 on LiveCodeBench-v6, exceeding LLaDA-2.1-mini (16B) by more than 26 and 15 points, respectively. Beyond quality, I-DLM is designed for the growing demand of large-concurrency serving, delivering about 3x higher throughput than prior state-of-the-art DLMs.
PDF143April 15, 2026