TextLDM: Sprachmodellierung mit kontinuierlicher latenter Diffusion

Zusammenfassung

Diffusion Transformer (DiT), die mit Flow Matching in einem VAE-Latentraum trainiert wurden, haben die visuelle Generierung über Bilder und Videos hinweg vereinheitlicht. Ein natürlicher nächster Schritt hin zu einer einheitlichen Architektur für sowohl Generierung (visuelle Synthese) als auch Verständnis (Textgenerierung) besteht darin, dieses Framework auf die Sprachmodellierung anzuwenden. Wir schlagen TextLDM vor, das das visuelle latente Diffusionsrezept mit minimalen architektonischen Änderungen auf die Textgenerierung überträgt. Ein Transformer-basierter VAE bildet diskrete Token auf kontinuierliche Latente ab, verbessert durch Repräsentationsausrichtung (REPA) mit einem eingefrorenen, vortrainierten Sprachmodell, um Darstellungen zu erzeugen, die für bedingtes Rauschentfernen effektiv sind. Ein Standard-DiT führt dann Flow Matching in diesem latenten Raum durch, architektonisch identisch mit seinem visuellen Gegenstück. Die zentrale Herausforderung, die wir angehen, ist die Gewinnung hochwertiger kontinuierlicher Textrepräsentationen: Wir stellen fest, dass die Rekonstruktionstreue allein nicht ausreicht und dass die Ausrichtung latenter Merkmale an einem vortrainierten Sprachmodell mittels REPA für die Qualität der nachgelagerten Generierung entscheidend ist. Von Grund auf trainiert auf OpenWebText2 übertrifft TextLDM frühere Diffusions-Sprachmodelle erheblich und erreicht unter denselben Bedingungen die Leistung von GPT-2. Unsere Ergebnisse belegen, dass sich das visuelle DiT-Rezept effektiv auf die Sprache übertragen lässt, was einen konkreten Schritt hin zu einheitlichen Diffusionsarchitekturen für multimodale Generierung und Verständnis darstellt.

English

Diffusion Transformers (DiT) trained with flow matching in a VAE latent space have unified visual generation across images and videos. A natural next step toward a single architecture for both generation (visual synthesis) and understanding (text generation) is to apply this framework to language modeling. We propose TextLDM, which transfers the visual latent diffusion recipe to text generation with minimal architectural modification. A Transformer-based VAE maps discrete tokens to continuous latents, enhanced by Representation Alignment (REPA) with a frozen pretrained language model to produce representations effective for conditional denoising. A standard DiT then performs flow matching in this latent space, identical in architecture to its visual counterpart. The central challenge we address is obtaining high-quality continuous text representations: we find that reconstruction fidelity alone is insufficient, and that aligning latent features with a pretrained language model via REPA is critical for downstream generation quality. Trained from scratch on OpenWebText2, TextLDM substantially outperforms prior diffusion language models and matches GPT-2 under the same settings. Our results establish that the visual DiT recipe transfers effectively to language, taking a concrete step toward unified diffusion architectures for multimodal generation and understanding.