ChatPaper.aiChatPaper

表現オートエンコーダを用いたテキスト-to-画像拡散Transformerのスケーリング

Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders

January 22, 2026
著者: Shengbang Tong, Boyang Zheng, Ziteng Wang, Bingda Tang, Nanye Ma, Ellis Brown, Jihan Yang, Rob Fergus, Yann LeCun, Saining Xie
cs.AI

要旨

表現オートエンコーダ(RAE)は、高次元の意味的潜在空間で学習することで、ImageNetにおける拡散モデリングにおいて明確な利点を示してきました。本研究では、このフレームワークが大規模で自由形式のテキストから画像(T2I)生成にスケールできるかどうかを調査します。まず、固定化された表現エンコーダ(SigLIP-2)上でRAEデコーダを、ImageNetを超えてWebデータ、合成データ、テキストレンダリングデータで学習させることでスケーリングしました。その結果、スケールを上げると一般的な忠実度は向上するものの、テキストのような特定のドメインでは対象を絞ったデータ構成が不可欠であることがわかりました。次に、ImageNet向けに当初提案されたRAE設計選択を厳密にストレステストします。私たちの分析により、スケーリングはフレームワークを単純化することが明らかになりました:次元依存のノイズスケジューリングは依然として重要ですが、大規模な拡散ヘッドやノイズ増強デコーディングといった構造的な複雑さは、スケール時には無視できる程度の利益しかもたらさないことがわかります。この単純化されたフレームワークに基づいて、RAEと最先端のFLUX VAEを、0.5Bから9.8Bパラメータの拡散トランスフォーマースケールにわたって制御された比較を実施します。RAEは、すべてのモデル規模においてプレトレーニング中、一貫してVAEを上回りました。さらに、高品質データセットでのファインチューニング中、VAEベースのモデルは64エポック後に壊滅的な過学習を起こしましたが、RAEモデルは256エポックを通じて安定し、一貫して優れた性能を達成しました。すべての実験を通じて、RAEベースの拡散モデルはより速い収束と優れた生成品質を示し、大規模T2I生成のための基盤として、RAEがVAEよりも単純で強力であることを確立しました。加えて、視覚的理解と生成の両方が共有された表現空間で動作可能なため、マルチモーダルモデルは生成された潜在変数を直接推論でき、統一モデルへの新たな可能性を開きます。
English
Representation Autoencoders (RAEs) have shown distinct advantages in diffusion modeling on ImageNet by training in high-dimensional semantic latent spaces. In this work, we investigate whether this framework can scale to large-scale, freeform text-to-image (T2I) generation. We first scale RAE decoders on the frozen representation encoder (SigLIP-2) beyond ImageNet by training on web, synthetic, and text-rendering data, finding that while scale improves general fidelity, targeted data composition is essential for specific domains like text. We then rigorously stress-test the RAE design choices originally proposed for ImageNet. Our analysis reveals that scaling simplifies the framework: while dimension-dependent noise scheduling remains critical, architectural complexities such as wide diffusion heads and noise-augmented decoding offer negligible benefits at scale Building on this simplified framework, we conduct a controlled comparison of RAE against the state-of-the-art FLUX VAE across diffusion transformer scales from 0.5B to 9.8B parameters. RAEs consistently outperform VAEs during pretraining across all model scales. Further, during finetuning on high-quality datasets, VAE-based models catastrophically overfit after 64 epochs, while RAE models remain stable through 256 epochs and achieve consistently better performance. Across all experiments, RAE-based diffusion models demonstrate faster convergence and better generation quality, establishing RAEs as a simpler and stronger foundation than VAEs for large-scale T2I generation. Additionally, because both visual understanding and generation can operate in a shared representation space, the multimodal model can directly reason over generated latents, opening new possibilities for unified models.
PDF401January 24, 2026