Skalierung von Text-zu-Bild-Diffusionstransformern mit Repräsentations-Autoencodern
Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders
January 22, 2026
papers.authors: Shengbang Tong, Boyang Zheng, Ziteng Wang, Bingda Tang, Nanye Ma, Ellis Brown, Jihan Yang, Rob Fergus, Yann LeCun, Saining Xie
cs.AI
papers.abstract
Repräsentations-Autoencoder (RAEs) haben bei Diffusionsmodellen auf ImageNet durch Training in hochdimensionalen semantischen Latent-Räumen deutliche Vorteile gezeigt. In dieser Arbeit untersuchen wir, ob sich dieser Rahmen auf großskalige, freie Text-zu-Bild (T2I)-Generierung übertragen lässt. Wir skalieren zunächst RAE-Decoder auf dem eingefrorenen Repräsentations-Encoder (SigLIP-2) über ImageNet hinaus, indem wir mit Web-, synthetischen und Text-Rendering-Daten trainieren. Dabei stellen wir fest, dass Skalierung zwar die allgemeine Wiedergabetreue verbessert, aber eine gezielte Datenzusammensetzung für spezifische Domänen wie Text entscheidend ist. Anschließend testen wir die ursprünglich für ImageNet vorgeschlagenen RAE-Designentscheidungen rigoros unter Stressbedingungen. Unsere Analyse zeigt, dass Skalierung den Rahmen vereinfacht: Während eine dimensionsabhängige Rauschplanung kritisch bleibt, bieten architektonische Komplexitäten wie breite Diffusionsköpfe und rauschergänztes Decodieren in großem Maßstab vernachlässigbare Vorteile. Aufbauend auf diesem vereinfachten Rahmen führen wir einen kontrollierten Vergleich von RAE mit dem state-of-the-art FLUX VAE über Diffusions-Transformer-Größen von 0,5B bis 9,8B Parametern durch. RAEs übertreffen VAEs während des Pre-Trainings durchgängig über alle Modellgrößen hinweg. Darüber hinaus überfitten VAE-basierte Modelle während des Fine-Tunings mit hochwertigen Datensätzen nach 64 Epochen katastrophal, während RAE-Modelle über 256 Epochen stabil bleiben und durchweg bessere Leistung erzielen. In allen Experimenten zeigen RAE-basierte Diffusionsmodelle schnellere Konvergenz und bessere Generierungsqualität, was RAEs als einfachere und leistungsstärkere Grundlage als VAEs für großskalige T2I-Generierung etabliert. Zusätzlich eröffnen sich neue Möglichkeiten für vereinheitlichte Modelle, da sowohl visuelles Verständnis als auch Generierung in einem gemeinsamen Repräsentationsraum operieren können und das multimodale Modell direkt über generierte Latents reasoning kann.
English
Representation Autoencoders (RAEs) have shown distinct advantages in diffusion modeling on ImageNet by training in high-dimensional semantic latent spaces. In this work, we investigate whether this framework can scale to large-scale, freeform text-to-image (T2I) generation. We first scale RAE decoders on the frozen representation encoder (SigLIP-2) beyond ImageNet by training on web, synthetic, and text-rendering data, finding that while scale improves general fidelity, targeted data composition is essential for specific domains like text. We then rigorously stress-test the RAE design choices originally proposed for ImageNet. Our analysis reveals that scaling simplifies the framework: while dimension-dependent noise scheduling remains critical, architectural complexities such as wide diffusion heads and noise-augmented decoding offer negligible benefits at scale Building on this simplified framework, we conduct a controlled comparison of RAE against the state-of-the-art FLUX VAE across diffusion transformer scales from 0.5B to 9.8B parameters. RAEs consistently outperform VAEs during pretraining across all model scales. Further, during finetuning on high-quality datasets, VAE-based models catastrophically overfit after 64 epochs, while RAE models remain stable through 256 epochs and achieve consistently better performance. Across all experiments, RAE-based diffusion models demonstrate faster convergence and better generation quality, establishing RAEs as a simpler and stronger foundation than VAEs for large-scale T2I generation. Additionally, because both visual understanding and generation can operate in a shared representation space, the multimodal model can directly reason over generated latents, opening new possibilities for unified models.