Modelo de Lenguaje de Difusión Latente Continua

Resumen

Los modelos de lenguaje a gran escala han logrado un éxito notable bajo el paradigma autorregresivo, sin embargo, la generación de texto de alta calidad no necesita estar ligada a un orden fijo de izquierda a derecha. Las alternativas existentes aún luchan por lograr conjuntamente eficiencia en la generación, aprendizaje de representaciones escalable y modelado semántico global efectivo. Proponemos Cola DLM, un modelo de lenguaje de difusión latente jerárquico que plantea la generación de texto mediante descomposición jerárquica de la información. Cola DLM primero aprende un mapeo estable de texto a latente con un VAE de Texto, luego modela un prior semántico global en un espacio latente continuo con un DiT de causalidad por bloques, y finalmente genera texto mediante decodificación condicional. Desde una perspectiva unificada de trayectoria markoviana, su proceso de difusión realiza transporte de prior latente en lugar de recuperación de observaciones a nivel de token, separando así la organización semántica global de la realización textual local. Este diseño produce un sesgo inductivo no autorregresivo más flexible, admite compresión semántica y ajuste de prior en espacio continuo, y se extiende naturalmente a otras modalidades continuas. Mediante experimentos que abarcan 4 preguntas de investigación, 8 benchmarks, líneas base autorregresivas y LLaDA estrictamente equiparadas de ~2B de parámetros, y curvas de escalado de hasta ~2000 EFLOPs, identificamos una configuración general efectiva de Cola DLM y verificamos su fuerte comportamiento de escalado para la generación de texto. En conjunto, los resultados establecen el modelado de prior latente continuo jerárquico como una alternativa fundamentada al modelado de lenguaje estrictamente a nivel de token, donde la calidad de generación y el comportamiento de escalado pueden reflejar mejor la capacidad del modelo que la verosimilitud, al mismo tiempo que sugieren un camino concreto hacia el modelado unificado entre texto discreto y modalidades continuas.

English

Large language models have achieved remarkable success under the autoregressive paradigm, yet high-quality text generation need not be tied to a fixed left-to-right order. Existing alternatives still struggle to jointly achieve generation efficiency, scalable representation learning, and effective global semantic modeling. We propose Cola DLM, a hierarchical latent diffusion language model that frames text generation through hierarchical information decomposition. Cola DLM first learns a stable text-to-latent mapping with a Text VAE, then models a global semantic prior in continuous latent space with a block-causal DiT, and finally generates text through conditional decoding. From a unified Markov-path perspective, its diffusion process performs latent prior transport rather than token-level observation recovery, thereby separating global semantic organization from local textual realization. This design yields a more flexible non-autoregressive inductive bias, supports semantic compression and prior fitting in continuous space, and naturally extends to other continuous modalities. Through experiments spanning 4 research questions, 8 benchmarks, strictly matched ~2B-parameter autoregressive and LLaDA baselines, and scaling curves up to about 2000 EFLOPs, we identify an effective overall configuration of Cola DLM and verify its strong scaling behavior for text generation. Taken together, the results establish hierarchical continuous latent prior modeling as a principled alternative to strictly token-level language modeling, where generation quality and scaling behavior may better reflect model capability than likelihood, while also suggesting a concrete path toward unified modeling across discrete text and continuous modalities.

Modelo de Lenguaje de Difusión Latente Continua

Continuous Latent Diffusion Language Model

Resumen

Support