Mise à l'échelle des Transformers de Diffusion pour la Génération d'Images à partir de Texte avec des Autoencodeurs de Représentation
Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders
January 22, 2026
papers.authors: Shengbang Tong, Boyang Zheng, Ziteng Wang, Bingda Tang, Nanye Ma, Ellis Brown, Jihan Yang, Rob Fergus, Yann LeCun, Saining Xie
cs.AI
papers.abstract
Les autoencodeurs de représentation (RAE) ont démontré des avantages distincts dans la modélisation de diffusion sur ImageNet en s'entraînant dans des espaces latents sémantiques de haute dimension. Dans ce travail, nous étudions si ce cadre peut être étendu à la génération texte-image (T2I) libre à grande échelle. Nous commençons par mettre à l'échelle les décodeurs RAE sur l'encodeur de représentation figé (SigLIP-2) au-delà d'ImageNet en les entraînant sur des données web, synthétiques et de rendu de texte, constatant que si l'échelle améliore la fidélité générale, une composition ciblée des données est essentielle pour des domaines spécifiques comme le texte. Nous soumettons ensuite rigoureusement à des tests de stress les choix de conception RAE initialement proposés pour ImageNet. Notre analyse révèle que la mise à l'échelle simplifie le cadre : bien que la planification du bruit dépendante de la dimension reste critique, les complexités architecturales telles que les têtes de diffusion larges et le décodage avec ajout de bruit offrent des bénéfices négligeables à grande échelle. En nous appuyant sur ce cadre simplifié, nous menons une comparaison contrôlée des RAE par rapport au VAE FLUX state-of-the-art à travers des échelles de transformeurs de diffusion de 0,5 à 9,8 milliards de paramètres. Les RAE surpassent constamment les VAE pendant le pré-entraînement à toutes les échelles de modèle. De plus, lors du réglage fin sur des ensembles de données de haute qualité, les modèles basés sur les VAE surajustent de façon catastrophique après 64 époques, tandis que les modèles RAE restent stables jusqu'à 256 époques et atteignent des performances constamment meilleures. Dans toutes les expériences, les modèles de diffusion basés sur les RAE démontrent une convergence plus rapide et une meilleure qualité de génération, établissant les RAE comme une fondation plus simple et plus solide que les VAE pour la génération T2I à grande échelle. De plus, puisque la compréhension visuelle et la génération peuvent opérer dans un espace de représentation partagé, le modèle multimodal peut raisonner directement sur les latents générés, ouvrant de nouvelles possibilités pour des modèles unifiés.
English
Representation Autoencoders (RAEs) have shown distinct advantages in diffusion modeling on ImageNet by training in high-dimensional semantic latent spaces. In this work, we investigate whether this framework can scale to large-scale, freeform text-to-image (T2I) generation. We first scale RAE decoders on the frozen representation encoder (SigLIP-2) beyond ImageNet by training on web, synthetic, and text-rendering data, finding that while scale improves general fidelity, targeted data composition is essential for specific domains like text. We then rigorously stress-test the RAE design choices originally proposed for ImageNet. Our analysis reveals that scaling simplifies the framework: while dimension-dependent noise scheduling remains critical, architectural complexities such as wide diffusion heads and noise-augmented decoding offer negligible benefits at scale Building on this simplified framework, we conduct a controlled comparison of RAE against the state-of-the-art FLUX VAE across diffusion transformer scales from 0.5B to 9.8B parameters. RAEs consistently outperform VAEs during pretraining across all model scales. Further, during finetuning on high-quality datasets, VAE-based models catastrophically overfit after 64 epochs, while RAE models remain stable through 256 epochs and achieve consistently better performance. Across all experiments, RAE-based diffusion models demonstrate faster convergence and better generation quality, establishing RAEs as a simpler and stronger foundation than VAEs for large-scale T2I generation. Additionally, because both visual understanding and generation can operate in a shared representation space, the multimodal model can directly reason over generated latents, opening new possibilities for unified models.