Обзор диффузионных языковых моделей
A Survey on Diffusion Language Models
August 14, 2025
Авторы: Tianyi Li, Mingda Chen, Bowei Guo, Zhiqiang Shen
cs.AI
Аннотация
Диффузионные языковые модели (DLMs) стремительно заявляют о себе как мощная и перспективная альтернатива доминирующей авторегрессивной (AR) парадигме. Генерируя токены параллельно через итеративный процесс удаления шума, DLMs обладают врожденными преимуществами в снижении задержек при выводе и захвате двунаправленного контекста, что позволяет осуществлять детализированный контроль над процессом генерации. Достигая многократного ускорения, последние достижения позволили DLMs демонстрировать производительность, сопоставимую с их авторегрессивными аналогами, что делает их привлекательным выбором для различных задач обработки естественного языка. В данном обзоре мы предоставляем целостный взгляд на текущее состояние DLMs. Мы прослеживаем их эволюцию и связь с другими парадигмами, такими как авторегрессивные и маскированные языковые модели, и охватываем как фундаментальные принципы, так и передовые модели. Наша работа предлагает актуальную, всеобъемлющую таксономию и глубокий анализ современных методов, от стратегий предварительного обучения до продвинутых методов пост-обучения. Еще одним вкладом этого обзора является тщательный анализ стратегий и оптимизаций вывода DLMs, включая улучшения в параллелизме декодирования, механизмах кэширования и качестве генерации. Мы также выделяем последние подходы к мультимодальным расширениям DLMs и описываем их применение в различных практических сценариях. Кроме того, наше обсуждение затрагивает ограничения и вызовы DLMs, включая эффективность, обработку длинных последовательностей и требования к инфраструктуре, одновременно намечая будущие направления исследований для поддержания прогресса в этой быстро развивающейся области. Проект GitHub доступен по адресу https://github.com/VILA-Lab/Awesome-DLMs.
English
Diffusion Language Models (DLMs) are rapidly emerging as a powerful and
promising alternative to the dominant autoregressive (AR) paradigm. By
generating tokens in parallel through an iterative denoising process, DLMs
possess inherent advantages in reducing inference latency and capturing
bidirectional context, thereby enabling fine-grained control over the
generation process. While achieving a several-fold speed-up, recent
advancements have allowed DLMs to show performance comparable to their
autoregressive counterparts, making them a compelling choice for various
natural language processing tasks. In this survey, we provide a holistic
overview of the current DLM landscape. We trace its evolution and relationship
with other paradigms, such as autoregressive and masked language models, and
cover both foundational principles and state-of-the-art models. Our work offers
an up-to-date, comprehensive taxonomy and an in-depth analysis of current
techniques, from pre-training strategies to advanced post-training methods.
Another contribution of this survey is a thorough review of DLM inference
strategies and optimizations, including improvements in decoding parallelism,
caching mechanisms, and generation quality. We also highlight the latest
approaches to multimodal extensions of DLMs and delineate their applications
across various practical scenarios. Furthermore, our discussion addresses the
limitations and challenges of DLMs, including efficiency, long-sequence
handling, and infrastructure requirements, while outlining future research
directions to sustain progress in this rapidly evolving field. Project GitHub
is available at https://github.com/VILA-Lab/Awesome-DLMs.