Schaalvergroting van Text-to-Image Diffusion Transformers met Representatie Auto-encoders

Samenvatting

Representatie Auto-encoders (RAE's) hebben duidelijke voordelen getoond in diffusiemodellering op ImageNet door training in hoogdimensionale semantische latente ruimten. In dit werk onderzoeken we of dit raamwerk kan worden opgeschaald naar grootschalige, vrije tekst-naar-beeld (T2I) generatie. We schalen eerst RAE-decoders op de bevroren representatie-encoder (SigLIP-2) voorbij ImageNet door training op web-, synthetische en tekstweergave-gegevens, waarbij we vaststellen dat hoewel schaal de algemene getrouwheid verbetert, gerichte datasamenstelling essentieel is voor specifieke domeinen zoals tekst. Vervolgens onderwerpen we de oorspronkelijk voor ImageNet voorgestelde RAE-ontwerpkeuzes rigoureus aan stresstests. Onze analyse onthult dat opschaling het raamwerk vereenvoudigt: hoewel dimensie-afhankelijke ruisplanning cruciaal blijft, bieden architecturale complexiteiten zoals brede diffusiekoppen en ruis-gemodificeerd decoderen verwaarloosbare voordelen op schaal. Op basis van dit vereenvoudigde raamwerk voeren we een gecontroleerde vergelijking uit van RAE's met de state-of-the-art FLUX VAE, over diffusietransformator-schalen van 0,5B tot 9,8B parameters. RAE's presteren consistent beter dan VAE's tijdens de voortraining op alle modelschalen. Bovendien, tijdens finetunen op hoogwaardige datasets, vertoonden op VAE gebaseerde modellen catastrofale overfitting na 64 epochs, terwijl RAE-modellen stabiel bleven gedurende 256 epochs en consistent betere prestaties bereikten. In alle experimenten toonden op RAE gebaseerde diffusiemodellen snellere convergentie en betere generatiekwaliteit, waarmee RAE's worden gevestigd als een eenvoudiger en sterker fundament dan VAE's voor grootschalige T2I-generatie. Een bijkomend voordeel is dat, omdat zowel visueel begrip als generatie kunnen opereren in een gedeelde representatieruimte, het multimodale model direct kan redeneren over gegenereerde latente representaties, wat nieuwe mogelijkheden opent voor verenigde modellen.

English

Representation Autoencoders (RAEs) have shown distinct advantages in diffusion modeling on ImageNet by training in high-dimensional semantic latent spaces. In this work, we investigate whether this framework can scale to large-scale, freeform text-to-image (T2I) generation. We first scale RAE decoders on the frozen representation encoder (SigLIP-2) beyond ImageNet by training on web, synthetic, and text-rendering data, finding that while scale improves general fidelity, targeted data composition is essential for specific domains like text. We then rigorously stress-test the RAE design choices originally proposed for ImageNet. Our analysis reveals that scaling simplifies the framework: while dimension-dependent noise scheduling remains critical, architectural complexities such as wide diffusion heads and noise-augmented decoding offer negligible benefits at scale Building on this simplified framework, we conduct a controlled comparison of RAE against the state-of-the-art FLUX VAE across diffusion transformer scales from 0.5B to 9.8B parameters. RAEs consistently outperform VAEs during pretraining across all model scales. Further, during finetuning on high-quality datasets, VAE-based models catastrophically overfit after 64 epochs, while RAE models remain stable through 256 epochs and achieve consistently better performance. Across all experiments, RAE-based diffusion models demonstrate faster convergence and better generation quality, establishing RAEs as a simpler and stronger foundation than VAEs for large-scale T2I generation. Additionally, because both visual understanding and generation can operate in a shared representation space, the multimodal model can directly reason over generated latents, opening new possibilities for unified models.

Schaalvergroting van Text-to-Image Diffusion Transformers met Representatie Auto-encoders

Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders

Samenvatting

Support