連続潜在拡散言語モデル
Continuous Latent Diffusion Language Model
May 7, 2026
著者: Hongcan Guo, Qinyu Zhao, Yian Zhao, Shen Nie, Rui Zhu, Qiushan Guo, Feng Wang, Tao Yang, Hengshuang Zhao, Guoqiang Wei, Yan Zeng
cs.AI
要旨
大規模言語モデルは自己回帰的パラダイムの下で顕著な成功を収めてきたが、高品質なテキスト生成は必ずしも固定された左から右への順序に縛られる必要はない。既存の代替手法は、生成効率、スケーラブルな表現学習、効果的な大域的意味モデリングを同時に達成することに依然として苦戦している。本論文では、階層的情報分解を通じてテキスト生成を再定義する階層的潜在拡散言語モデル「Cola DLM」を提案する。Cola DLMはまずText VAEで安定したテキスト-潜在変数マッピングを学習し、ブロック因果DiTで連続潜在空間内の大域的意味事前分布をモデル化し、最後に条件付きデコーディングによりテキストを生成する。統一的なマルコフ経路の観点から、その拡散過程はトークンレベルの観測復元ではなく潜在事前分布の輸送を実行することで、大域的意味構成と局所的なテキスト実現を分離する。この設計はより柔軟な非自己回帰的帰納バイアスをもたらし、連続空間における意味圧縮と事前分布適合を支援し、他の連続モダリティへの自然な拡張を可能にする。4つの研究課題、8つのベンチマーク、厳密に調整された約20億パラメータの自己回帰モデルおよびLLaDAベースライン、約2000 EFLOPsに至るスケーリング曲線にわたる実験を通じて、我々はCola DLMの効果的な全体構成を特定し、テキスト生成におけるその強力なスケーリング挙動を検証する。総合的に、結果は階層的連続潜在事前分布モデリングが厳密なトークンレベル言語モデリングに対する原理に基づく代替手法であることを立証する。このアプローチでは、生成品質とスケーリング挙動が尤度よりもモデル能力をよりよく反映するとともに、離散テキストと連続モダリティを横断する統一モデリングへの具体的な道筋を示唆している。
English
Large language models have achieved remarkable success under the autoregressive paradigm, yet high-quality text generation need not be tied to a fixed left-to-right order. Existing alternatives still struggle to jointly achieve generation efficiency, scalable representation learning, and effective global semantic modeling. We propose Cola DLM, a hierarchical latent diffusion language model that frames text generation through hierarchical information decomposition. Cola DLM first learns a stable text-to-latent mapping with a Text VAE, then models a global semantic prior in continuous latent space with a block-causal DiT, and finally generates text through conditional decoding. From a unified Markov-path perspective, its diffusion process performs latent prior transport rather than token-level observation recovery, thereby separating global semantic organization from local textual realization. This design yields a more flexible non-autoregressive inductive bias, supports semantic compression and prior fitting in continuous space, and naturally extends to other continuous modalities. Through experiments spanning 4 research questions, 8 benchmarks, strictly matched ~2B-parameter autoregressive and LLaDA baselines, and scaling curves up to about 2000 EFLOPs, we identify an effective overall configuration of Cola DLM and verify its strong scaling behavior for text generation. Taken together, the results establish hierarchical continuous latent prior modeling as a principled alternative to strictly token-level language modeling, where generation quality and scaling behavior may better reflect model capability than likelihood, while also suggesting a concrete path toward unified modeling across discrete text and continuous modalities.