TextLDM: Taalmodellering met continue latente diffusie

Samenvatting

Diffusietransformers (DiT) die getraind zijn met flow matching in een VAE-latente ruimte hebben visuele generatie over afbeeldingen en video's verenigd. Een logische volgende stap richting een enkele architectuur voor zowel generatie (visuele synthese) als begrip (tekstgeneratie) is om dit raamwerk toe te passen op taalmodellering. We stellen TextLDM voor, dat het visuele latente diffusierecept overdraagt naar tekstgeneratie met minimale architecturale aanpassingen. Een op Transformers gebaseerde VAE wijst discrete tokens toe aan continue latents, verbeterd door Representation Alignment (REPA) met een bevroren voorgetraind taalmodel om representaties te produceren die effectief zijn voor conditionele ontruising. Een standaard DiT voert vervolgens flow matching uit in deze latente ruimte, identiek in architectuur aan zijn visuele tegenhanger. De centrale uitdaging die we aanpakken is het verkrijgen van hoogwaardige continue tekstrepresentaties: we vinden dat reconstructiegetrouwheid alleen niet voldoende is, en dat het afstemmen van latente kenmerken met een voorgetraind taalmodel via REPA cruciaal is voor de stroomafwaartse generatiekwaliteit. Getraind vanaf nul op OpenWebText2, presteert TextLDM aanzienlijk beter dan eerdere diffusietaalmodellen en evenaart GPT-2 onder dezelfde instellingen. Onze resultaten tonen aan dat het visuele DiT-recept effectief overdraagt naar taal, waarmee een concrete stap wordt gezet richting verenigde diffusiearchitecturen voor multimodale generatie en begrip.

English

Diffusion Transformers (DiT) trained with flow matching in a VAE latent space have unified visual generation across images and videos. A natural next step toward a single architecture for both generation (visual synthesis) and understanding (text generation) is to apply this framework to language modeling. We propose TextLDM, which transfers the visual latent diffusion recipe to text generation with minimal architectural modification. A Transformer-based VAE maps discrete tokens to continuous latents, enhanced by Representation Alignment (REPA) with a frozen pretrained language model to produce representations effective for conditional denoising. A standard DiT then performs flow matching in this latent space, identical in architecture to its visual counterpart. The central challenge we address is obtaining high-quality continuous text representations: we find that reconstruction fidelity alone is insufficient, and that aligning latent features with a pretrained language model via REPA is critical for downstream generation quality. Trained from scratch on OpenWebText2, TextLDM substantially outperforms prior diffusion language models and matches GPT-2 under the same settings. Our results establish that the visual DiT recipe transfers effectively to language, taking a concrete step toward unified diffusion architectures for multimodal generation and understanding.