拡散型大規模言語モデルにおける離散性の役割について
On the Role of Discreteness in Diffusion LLMs
December 27, 2025
著者: Ziqi Jin, Bin Wang, Xiang Lin, Lidong Bing, Aixin Sun
cs.AI
要旨
拡散モデルは、並列デコードや反復的な精緻化など、言語生成において魅力的な特性を提供する。しかし、テキストの離散的かつ高度に構造化された性質は、拡散原理の直接的な適用に課題をもたらす。本論文では、拡散過程と言語モデリングの観点から拡散言語モデリングを再検討し、拡散メカニズムと言語固有の要件を分かつ5つの特性を提示する。まず、既存のアプローチを、埋め込み空間における連続的拡散とトークン上の離散的拡散に分類する。次に、各アプローチが5つの必須特性の一部しか満たさず、構造的なトレードオフを反映していることを示す。最近の大規模拡散言語モデルの分析を通じて、二つの核心的問題を特定する:(i) 一様な劣化は情報が位置間でどのように分布するかを考慮しておらず、(ii) トークン単位の周辺学習は並列デコード時の複数トークン間の依存関係を捕捉できない。これらの知見は、テキストの構造により整合した拡散過程の必要性を動機づけ、より一貫性のある拡散言語モデルに向けた将来の研究を促すものである。
English
Diffusion models offer appealing properties for language generation, such as parallel decoding and iterative refinement, but the discrete and highly structured nature of text challenges the direct application of diffusion principles. In this paper, we revisit diffusion language modeling from the view of diffusion process and language modeling, and outline five properties that separate diffusion mechanics from language-specific requirements. We first categorize existing approaches into continuous diffusion in embedding space and discrete diffusion over tokens. We then show that each satisfies only part of the five essential properties and therefore reflects a structural trade-off. Through analyses of recent large diffusion language models, we identify two central issues: (i) uniform corruption does not respect how information is distributed across positions, and (ii) token-wise marginal training cannot capture multi-token dependencies during parallel decoding. These observations motivate diffusion processes that align more closely with the structure of text, and encourage future work toward more coherent diffusion language models.