Kontinuierliches latentes Diffusionssprachmodell

Zusammenfassung

Große Sprachmodelle haben bemerkenswerte Erfolge unter dem autoregressiven Paradigma erzielt, doch hochwertige Texterzeugung muss nicht an eine feste Links-nach-rechts-Reihenfolge gebunden sein. Bestehende Alternativen haben nach wie vor Schwierigkeiten, Erzeugungseffizienz, skalierbares Repräsentationslernen und effektive globale semantische Modellierung gemeinsam zu erreichen. Wir schlagen Cola DLM vor, ein hierarchisches latentes Diffusions-Sprachmodell, das Texterzeugung durch hierarchische Informationszerlegung abbildet. Cola DMI erlernt zunächst eine stabile Text-zu-Latent-Abbildung mit einem Text-VAE, modelliert dann ein globales semantisches Prior in einem kontinuierlichen latenten Raum mit einem block-kausalen DiT und erzeugt schließlich Text durch bedingte Dekodierung. Aus einer einheitlichen Markov-Pfad-Perspektive führt sein Diffusionsprozess einen latenten Prior-Transport anstelle einer Token-level-Beobachtungsrückgewinnung durch, wodurch die globale semantische Organisation von der lokalen textuellen Realisierung getrennt wird. Dieses Design führt zu einer flexibleren nicht-autoregressiven Induktionsverzerrung, unterstützt semantische Kompression und Prior-Anpassung im kontinuierlichen Raum und erstreckt sich natürlich auf andere kontinuierliche Modalitäten. Durch Experimente über 4 Forschungsfragen, 8 Benchmarks, streng abgeglichene ~2B-Parameter autoregressive und LLaDA-Baselines sowie Skalierungskurven bis zu etwa 2000 EFLOPs identifizieren wir eine effektive Gesamtkonfiguration von Cola DLM und verifizieren sein starkes Skalierungsverhalten für die Texterzeugung. Zusammengenommen etablieren die Ergebnisse die Modellierung hierarchischer kontinuierlicher latenter Priors als prinzipielle Alternative zur streng Token-basierten Sprachmodellierung, bei der Erzeugungsqualität und Skalierungsverhalten die Modellfähigkeit besser widerspiegeln können als Likelihood, während sie gleichzeitig einen konkreten Weg zur vereinheitlichten Modellierung über diskrete Texte und kontinuierliche Modalitäten hinweg aufzeigen.

English

Large language models have achieved remarkable success under the autoregressive paradigm, yet high-quality text generation need not be tied to a fixed left-to-right order. Existing alternatives still struggle to jointly achieve generation efficiency, scalable representation learning, and effective global semantic modeling. We propose Cola DLM, a hierarchical latent diffusion language model that frames text generation through hierarchical information decomposition. Cola DLM first learns a stable text-to-latent mapping with a Text VAE, then models a global semantic prior in continuous latent space with a block-causal DiT, and finally generates text through conditional decoding. From a unified Markov-path perspective, its diffusion process performs latent prior transport rather than token-level observation recovery, thereby separating global semantic organization from local textual realization. This design yields a more flexible non-autoregressive inductive bias, supports semantic compression and prior fitting in continuous space, and naturally extends to other continuous modalities. Through experiments spanning 4 research questions, 8 benchmarks, strictly matched ~2B-parameter autoregressive and LLaDA baselines, and scaling curves up to about 2000 EFLOPs, we identify an effective overall configuration of Cola DLM and verify its strong scaling behavior for text generation. Taken together, the results establish hierarchical continuous latent prior modeling as a principled alternative to strictly token-level language modeling, where generation quality and scaling behavior may better reflect model capability than likelihood, while also suggesting a concrete path toward unified modeling across discrete text and continuous modalities.

Kontinuierliches latentes Diffusionssprachmodell

Continuous Latent Diffusion Language Model

Zusammenfassung

Support