Modèle de Langage à Diffusion Latente Continue
Continuous Latent Diffusion Language Model
May 7, 2026
Auteurs: Hongcan Guo, Qinyu Zhao, Yian Zhao, Shen Nie, Rui Zhu, Qiushan Guo, Feng Wang, Tao Yang, Hengshuang Zhao, Guoqiang Wei, Yan Zeng
cs.AI
Résumé
Les grands modèles de langage ont connu un succès remarquable sous le paradigme autorégressif, pourtant la génération de texte de haute qualité ne doit pas nécessairement être liée à un ordre fixe gauche-droite. Les alternatives existantes peinent encore à concilier efficacité de génération, apprentissage de représentations évolutif et modélisation sémantique globale efficace. Nous proposons Cola DLM, un modèle de langage à diffusion latente hiérarchique qui aborde la génération de texte par une décomposition hiérarchique de l'information. Cola DLM apprend d'abord une cartographie stable texte-vers-latent avec un VAE de texte, modélise ensuite un prior sémantique global dans un espace latent continu avec un DiT à causalité par blocs, et génère enfin le texte par décodage conditionnel. D'un point de vue unifié des chaînes de Markov, son processus de diffusion effectue un transport de prior latent plutôt qu'une récupération d'observations au niveau token, séparant ainsi l'organisation sémantique globale de la réalisation textuelle locale. Cette conception produit un biais inductif non autorégressif plus flexible, supporte la compression sémantique et l'ajustement de prior dans l'espace continu, et s'étend naturellement à d'autres modalités continues. À travers des expériences couvrant 4 questions de recherche, 8 benchmarks, des modèles de référence autorégressifs et LLaDA strictement appariés d'environ 2B paramètres, et des courbes de mise à l'échelle jusqu'à environ 2000 EFLOPs, nous identifions une configuration globale efficace de Cola DLM et vérifions son fort potentiel de mise à l'échelle pour la génération de texte. Dans leur ensemble, ces résultats établissent la modélisation hiérarchique de prior latent continu comme une alternative fondée à la modélisation strictement token-level du langage, où la qualité de génération et le comportement à l'échelle pourraient mieux refléter la capacité du modèle que la vraisemblance, tout en suggérant une voie concrète vers une modélisation unifiée des modalités textuelles discrètes et continues.
English
Large language models have achieved remarkable success under the autoregressive paradigm, yet high-quality text generation need not be tied to a fixed left-to-right order. Existing alternatives still struggle to jointly achieve generation efficiency, scalable representation learning, and effective global semantic modeling. We propose Cola DLM, a hierarchical latent diffusion language model that frames text generation through hierarchical information decomposition. Cola DLM first learns a stable text-to-latent mapping with a Text VAE, then models a global semantic prior in continuous latent space with a block-causal DiT, and finally generates text through conditional decoding. From a unified Markov-path perspective, its diffusion process performs latent prior transport rather than token-level observation recovery, thereby separating global semantic organization from local textual realization. This design yields a more flexible non-autoregressive inductive bias, supports semantic compression and prior fitting in continuous space, and naturally extends to other continuous modalities. Through experiments spanning 4 research questions, 8 benchmarks, strictly matched ~2B-parameter autoregressive and LLaDA baselines, and scaling curves up to about 2000 EFLOPs, we identify an effective overall configuration of Cola DLM and verify its strong scaling behavior for text generation. Taken together, the results establish hierarchical continuous latent prior modeling as a principled alternative to strictly token-level language modeling, where generation quality and scaling behavior may better reflect model capability than likelihood, while also suggesting a concrete path toward unified modeling across discrete text and continuous modalities.