Doorlopend Latent Diffusie Taalmodel
Continuous Latent Diffusion Language Model
May 7, 2026
Auteurs: Hongcan Guo, Qinyu Zhao, Yian Zhao, Shen Nie, Rui Zhu, Qiushan Guo, Feng Wang, Tao Yang, Hengshuang Zhao, Guoqiang Wei, Yan Zeng
cs.AI
Samenvatting
Grootschalige taalmodel(len) hebben opmerkelijke successen geboekt binnen het autoregressieve paradigma, maar hoogwaardige tekstgeneratie hoeft niet gebonden te zijn aan een vaste links-naar-rechts volgorde. Bestaande alternatieven hebben nog steeds moeite om generatie-efficiëntie, schaalbare representatieleren en effectieve globale semantische modellering gezamenlijk te realiseren. Wij stellen Cola DLM voor, een hiërarchisch latent diffusie-taalmodel dat tekstgeneratie benadert via hiërarchische informatie-decompositie. Cola DLM leert eerst een stabiele tekst-naar-latent mapping met een Text VAE, modelleert vervolgens een globale semantische prior in een continue latente ruimte met een block-causale DiT, en genereert ten slotte tekst via conditionele decodering. Vanuit een verenigd Markov-padperspectief voert het diffusieproces latent prior transport uit in plaats van token-level observatieherstel, waardoor globale semantische organisatie wordt gescheiden van lokale tekstuele realisatie. Dit ontwerp resulteert in een flexibelere niet-autoregressieve inductieve bias, ondersteunt semantische compressie en prior-fitting in continue ruimte, en breidt zich natuurlijk uit naar andere continue modaliteiten. Door experimenten over 4 onderzoeksvragen, 8 benchmarks, strikt gematchte ~2B-parameter autoregressieve en LLaDA-baselines, en schaalcurves tot ongeveer 2000 EFLOPs, identificeren we een effectieve algemene configuratie van Cola DLM en verifiëren we het sterke schaalgedrag voor tekstgeneratie. Samengenomen vestigen de resultaten hiërarchische continue latente prior-modellering als een principieel alternatief voor strikt token-level taalmodellering, waarbij generatiekwaliteit en schaalgedrag modelcapaciteit mogelijk beter reflecteren dan likelihood, terwijl ze ook een concreet pad suggereren naar verenigde modellering van discrete tekst en continue modaliteiten.
English
Large language models have achieved remarkable success under the autoregressive paradigm, yet high-quality text generation need not be tied to a fixed left-to-right order. Existing alternatives still struggle to jointly achieve generation efficiency, scalable representation learning, and effective global semantic modeling. We propose Cola DLM, a hierarchical latent diffusion language model that frames text generation through hierarchical information decomposition. Cola DLM first learns a stable text-to-latent mapping with a Text VAE, then models a global semantic prior in continuous latent space with a block-causal DiT, and finally generates text through conditional decoding. From a unified Markov-path perspective, its diffusion process performs latent prior transport rather than token-level observation recovery, thereby separating global semantic organization from local textual realization. This design yields a more flexible non-autoregressive inductive bias, supports semantic compression and prior fitting in continuous space, and naturally extends to other continuous modalities. Through experiments spanning 4 research questions, 8 benchmarks, strictly matched ~2B-parameter autoregressive and LLaDA baselines, and scaling curves up to about 2000 EFLOPs, we identify an effective overall configuration of Cola DLM and verify its strong scaling behavior for text generation. Taken together, the results establish hierarchical continuous latent prior modeling as a principled alternative to strictly token-level language modeling, where generation quality and scaling behavior may better reflect model capability than likelihood, while also suggesting a concrete path toward unified modeling across discrete text and continuous modalities.