Диффузионные языковые модели знают ответ до декодирования.
Diffusion Language Models Know the Answer Before Decoding
August 27, 2025
Авторы: Pengxiang Li, Yefan Zhou, Dilxat Muhtar, Lu Yin, Shilin Yan, Li Shen, Yi Liang, Soroush Vosoughi, Shiwei Liu
cs.AI
Аннотация
Диффузионные языковые модели (DLM) недавно появились как альтернатива авторегрессивным подходам, предлагая параллельную генерацию последовательностей и гибкий порядок токенов. Однако их вывод остается медленнее, чем у авторегрессивных моделей, в основном из-за затрат на двунаправленное внимание и большого количества шагов уточнения, необходимых для получения высококачественных результатов. В данной работе мы выделяем и используем недооцененное свойство DLM — раннюю сходимость ответов: во многих случаях правильный ответ может быть внутренне идентифицирован на половине шагов до финального декодирования, как при полуавторегрессивных, так и при случайных схемах повторного маскирования. Например, на GSM8K и MMLU до 97% и 99% примеров соответственно могут быть декодированы корректно, используя только половину шагов уточнения. Основываясь на этом наблюдении, мы представляем Prophet — бесплатный быстрый метод декодирования, который позволяет реализовать раннее декодирование. В частности, Prophet динамически решает, продолжать ли уточнение или перейти к «полному декодированию» (т.е. декодировать все оставшиеся токены за один шаг), используя разрыв уверенности между двумя лучшими кандидатами на предсказание в качестве критерия. Он легко интегрируется в существующие реализации DLM, требует минимальных накладных расходов и не нуждается в дополнительном обучении. Эмпирические оценки LLaDA-8B и Dream-7B на множестве задач показывают, что Prophet сокращает количество шагов декодирования до 3,4 раз при сохранении высокого качества генерации. Эти результаты переосмысливают декодирование DLM как проблему определения момента остановки выборки и демонстрируют, что ранняя сходимость декодирования предоставляет простой, но мощный механизм для ускорения вывода DLM, дополняя существующие методы ускорения. Наш код доступен публично по адресу https://github.com/pixeli99/Prophet.
English
Diffusion language models (DLMs) have recently emerged as an alternative to
autoregressive approaches, offering parallel sequence generation and flexible
token orders. However, their inference remains slower than that of
autoregressive models, primarily due to the cost of bidirectional attention and
the large number of refinement steps required for high quality outputs. In this
work, we highlight and leverage an overlooked property of DLMs early answer
convergence: in many cases, the correct answer can be internally identified by
half steps before the final decoding step, both under semi-autoregressive and
random remasking schedules. For example, on GSM8K and MMLU, up to 97% and 99%
of instances, respectively, can be decoded correctly using only half of the
refinement steps. Building on this observation, we introduce Prophet, a
training-free fast decoding paradigm that enables early commit decoding.
Specifically, Prophet dynamically decides whether to continue refinement or to
go "all-in" (i.e., decode all remaining tokens in one step), using the
confidence gap between the top-2 prediction candidates as the criterion. It
integrates seamlessly into existing DLM implementations, incurs negligible
overhead, and requires no additional training. Empirical evaluations of
LLaDA-8B and Dream-7B across multiple tasks show that Prophet reduces the
number of decoding steps by up to 3.4x while preserving high generation
quality. These results recast DLM decoding as a problem of when to stop
sampling, and demonstrate that early decode convergence provides a simple yet
powerful mechanism for accelerating DLM inference, complementary to existing
speedup techniques. Our code is publicly available at
https://github.com/pixeli99/Prophet.