TextLDM : Modélisation du langage avec diffusion latente continue

Résumé

Les Transformers de Diffusion (DiT) entraînés par *flow matching* dans un espace latent de VAE ont unifié la génération visuelle pour les images et les vidéos. Une étape naturelle vers une architecture unique pour la génération (synthèse visuelle) et la compréhension (génération de texte) consiste à appliquer ce cadre à la modélisation du langage. Nous proposons TextLDM, qui transpose la recette de la diffusion latente visuelle à la génération de texte avec une modification architecturale minimale. Un VAE basé sur Transformer mappe les tokens discrets en latents continus, amélioré par l’Alignement des Représentations (REPA) avec un modèle de langage pré-entraîné gelé, afin de produire des représentations efficaces pour le débruitage conditionnel. Un DiT standard effectue ensuite du *flow matching* dans cet espace latent, avec une architecture identique à son homologue visuel. Le défi central que nous relevons est l’obtention de représentations textuelles continues de haute qualité : nous constatons que la seule fidélité de reconstruction est insuffisante, et que l’alignement des caractéristiques latentes avec un modèle de langage pré-entraîné via REPA est crucial pour la qualité de la génération en aval. Entraîné de zéro sur OpenWebText2, TextLDM surpasse nettement les modèles de langage à diffusion antérieurs et égale GPT-2 dans les mêmes conditions. Nos résultats établissent que la recette du DiT visuel se transpose efficacement au langage, faisant un pas concret vers des architectures de diffusion unifiées pour la génération et la compréhension multimodales.

English

Diffusion Transformers (DiT) trained with flow matching in a VAE latent space have unified visual generation across images and videos. A natural next step toward a single architecture for both generation (visual synthesis) and understanding (text generation) is to apply this framework to language modeling. We propose TextLDM, which transfers the visual latent diffusion recipe to text generation with minimal architectural modification. A Transformer-based VAE maps discrete tokens to continuous latents, enhanced by Representation Alignment (REPA) with a frozen pretrained language model to produce representations effective for conditional denoising. A standard DiT then performs flow matching in this latent space, identical in architecture to its visual counterpart. The central challenge we address is obtaining high-quality continuous text representations: we find that reconstruction fidelity alone is insufficient, and that aligning latent features with a pretrained language model via REPA is critical for downstream generation quality. Trained from scratch on OpenWebText2, TextLDM substantially outperforms prior diffusion language models and matches GPT-2 under the same settings. Our results establish that the visual DiT recipe transfers effectively to language, taking a concrete step toward unified diffusion architectures for multimodal generation and understanding.

TextLDM : Modélisation du langage avec diffusion latente continue

TextLDM: Language Modeling with Continuous Latent Diffusion

Résumé

Support