Интроспективные диффузионные языковые модели

Аннотация

Диффузионные языковые модели обещают параллельную генерацию, но все еще уступают авторегрессионным (AR) моделям по качеству. Мы связываем этот разрыв с нарушением интроспективной согласованности: AR-модели согласуются с собственными генерациями, в то время как диффузионные языковые модели (DLM) часто этого не делают. Мы определяем показатель интроспективного принятия, который измеряет, принимает ли модель свои ранее сгенерированные токены. Это раскрывает, почему AR-обучение имеет структурное преимущество: каузальное маскирование и сдвиг логитов неявно обеспечивают интроспективную согласованность. Руководствуясь этим наблюдением, мы представляем Introspective Diffusion Language Model (I-DLM) — парадигму, которая сохраняет параллельное декодирование в стиле диффузии, наследуя при этом интроспективную согласованность AR-обучения. I-DLM использует новый алгоритм интроспективного страйдового декодирования (ISD), позволяющий модели проверять ранее сгенерированные токены, одновременно продвигая новые за один прямой проход. С системной точки зрения, мы строим механизм вывода I-DLM на основе унаследованных от AR оптимизаций и дополнительно адаптируем его с помощью планировщика со стационарными батчами. Насколько нам известно, I-DLM является первой DLM, которая по качеству соответствует AR-аналогу того же масштаба, превосходя предыдущие DLM как по качеству модели, так и по практической эффективности обслуживания в 15 бенчмарках. Она достигает 69.6 баллов на AIME-24 и 45.7 на LiveCodeBench-v6, опережая LLaMA-2.1-mini (16B) более чем на 26 и 15 баллов соответственно. Помимо качества, I-DLM разработана для растущего спроса на обслуживание с высокой конкурентностью, обеспечивая примерно в 3 раза более высокую пропускную способность по сравнению с предыдущими передовыми DLM.

English

Diffusion language models promise parallel generation, yet still lag behind autoregressive (AR) models in quality. We stem this gap to a failure of introspective consistency: AR models agree with their own generations, while DLMs often do not. We define the introspective acceptance rate, which measures whether a model accepts its previously generated tokens. This reveals why AR training has a structural advantage: causal masking and logit shifting implicitly enforce introspective consistency. Motivated by this observation, we introduce Introspective Diffusion Language Model (I-DLM), a paradigm that retains diffusion-style parallel decoding while inheriting the introspective consistency of AR training. I-DLM uses a novel introspective strided decoding (ISD) algorithm, which enables the model to verify previously generated tokens while advancing new ones in the same forward pass. From a systems standpoint, we build I-DLM inference engine on AR-inherited optimizations and further customize it with a stationary-batch scheduler. To the best of our knowledge, I-DLM is the first DLM to match the quality of its same-scale AR counterpart while outperforming prior DLMs in both model quality and practical serving efficiency across 15 benchmarks. It reaches 69.6 on AIME-24 and 45.7 on LiveCodeBench-v6, exceeding LLaDA-2.1-mini (16B) by more than 26 and 15 points, respectively. Beyond quality, I-DLM is designed for the growing demand of large-concurrency serving, delivering about 3x higher throughput than prior state-of-the-art DLMs.

Интроспективные диффузионные языковые модели

Introspective Diffusion Language Models

Аннотация

Support