拡散言語モデルに関するサーベイ
A Survey on Diffusion Language Models
August 14, 2025
著者: Tianyi Li, Mingda Chen, Bowei Guo, Zhiqiang Shen
cs.AI
要旨
拡散言語モデル(DLMs)は、現在主流の自己回帰(AR)パラダイムに代わる強力で有望なアプローチとして急速に注目を集めています。DLMsは、反復的なノイズ除去プロセスを通じてトークンを並列生成することで、推論の遅延を削減し、双方向の文脈を捉えるという本質的な利点を持ち、生成プロセスに対するきめ細かい制御を可能にします。数倍の高速化を実現しながらも、最近の進歩によりDLMsは自己回帰モデルと同等の性能を示すようになり、様々な自然言語処理タスクにおいて魅力的な選択肢となっています。本調査では、現在のDLMの状況を包括的に概観します。その進化と、自己回帰モデルやマスク言語モデルなどの他のパラダイムとの関係をたどり、基礎的な原理から最先端のモデルまでを網羅します。私たちの研究は、最新の包括的な分類体系と、事前学習戦略から高度な事後学習手法に至る現在の技術の詳細な分析を提供します。本調査のもう一つの貢献は、DLMの推論戦略と最適化に関する徹底的なレビューであり、デコードの並列化、キャッシュメカニズム、生成品質の改善などを含みます。また、DLMsのマルチモーダル拡張への最新アプローチと、様々な実践的シナリオでの応用を明らかにします。さらに、効率性、長文処理、インフラ要件などのDLMsの制約と課題について議論し、この急速に進化する分野の進歩を維持するための将来の研究方向を概説します。プロジェクトのGitHubはhttps://github.com/VILA-Lab/Awesome-DLMsで公開されています。
English
Diffusion Language Models (DLMs) are rapidly emerging as a powerful and
promising alternative to the dominant autoregressive (AR) paradigm. By
generating tokens in parallel through an iterative denoising process, DLMs
possess inherent advantages in reducing inference latency and capturing
bidirectional context, thereby enabling fine-grained control over the
generation process. While achieving a several-fold speed-up, recent
advancements have allowed DLMs to show performance comparable to their
autoregressive counterparts, making them a compelling choice for various
natural language processing tasks. In this survey, we provide a holistic
overview of the current DLM landscape. We trace its evolution and relationship
with other paradigms, such as autoregressive and masked language models, and
cover both foundational principles and state-of-the-art models. Our work offers
an up-to-date, comprehensive taxonomy and an in-depth analysis of current
techniques, from pre-training strategies to advanced post-training methods.
Another contribution of this survey is a thorough review of DLM inference
strategies and optimizations, including improvements in decoding parallelism,
caching mechanisms, and generation quality. We also highlight the latest
approaches to multimodal extensions of DLMs and delineate their applications
across various practical scenarios. Furthermore, our discussion addresses the
limitations and challenges of DLMs, including efficiency, long-sequence
handling, and infrastructure requirements, while outlining future research
directions to sustain progress in this rapidly evolving field. Project GitHub
is available at https://github.com/VILA-Lab/Awesome-DLMs.