LDM: Modelado de Lenguaje con Difusión Latente Continua
TextLDM: Language Modeling with Continuous Latent Diffusion
May 8, 2026
Autores: Jiaxiu Jiang, Jingjing Ren, Wenbo Li, Bo Wang, Haoze Sun, Yijun Yang, Jianhui Liu, Yanbing Zhang, Shenghe Zheng, Yuan Zhang, Haoyang Huang, Nan Duan, Wangmeng Zuo
cs.AI
Resumen
Los Transformadores de Difusión (DiT) entrenados con emparejamiento de flujo en un espacio latente VAE han unificado la generación visual en imágenes y videos. Un siguiente paso natural hacia una arquitectura única para generación (síntesis visual) y comprensión (generación de texto) es aplicar este marco al modelado de lenguaje. Proponemos TextLDM, que transfiere la receta de difusión latente visual a la generación de texto con modificaciones arquitectónicas mínimas. Un VAE basado en Transformadores mapea tokens discretos a latentes continuos, mejorado por Alineación de Representaciones (REPA) con un modelo de lenguaje preentrenado congelado para producir representaciones efectivas para el desruido condicional. Un DiT estándar luego realiza emparejamiento de flujo en este espacio latente, idéntico en arquitectura a su contraparte visual. El desafío central que abordamos es obtener representaciones de texto continuas de alta calidad: encontramos que la fidelidad de reconstrucción por sí sola es insuficiente, y que alinear características latentes con un modelo de lenguaje preentrenado mediante REPA es crítico para la calidad de generación posterior. Entrenado desde cero en OpenWebText2, TextLDM supera sustancialmente a modelos previos de difusión de lenguaje y se equipara a GPT-2 bajo las mismas configuraciones. Nuestros resultados establecen que la receta visual DiT se transfiere efectivamente al lenguaje, dando un paso concreto hacia arquitecturas de difusión unificadas para generación y comprensión multimodal.
English
Diffusion Transformers (DiT) trained with flow matching in a VAE latent space have unified visual generation across images and videos. A natural next step toward a single architecture for both generation (visual synthesis) and understanding (text generation) is to apply this framework to language modeling. We propose TextLDM, which transfers the visual latent diffusion recipe to text generation with minimal architectural modification. A Transformer-based VAE maps discrete tokens to continuous latents, enhanced by Representation Alignment (REPA) with a frozen pretrained language model to produce representations effective for conditional denoising. A standard DiT then performs flow matching in this latent space, identical in architecture to its visual counterpart. The central challenge we address is obtaining high-quality continuous text representations: we find that reconstruction fidelity alone is insufficient, and that aligning latent features with a pretrained language model via REPA is critical for downstream generation quality. Trained from scratch on OpenWebText2, TextLDM substantially outperforms prior diffusion language models and matches GPT-2 under the same settings. Our results establish that the visual DiT recipe transfers effectively to language, taking a concrete step toward unified diffusion architectures for multimodal generation and understanding.