ChatPaper.aiChatPaper

SVG-T2I:変分オートエンコーダを用いないテキストから画像への潜在拡散モデルのスケーリングアップ

SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder

December 12, 2025
著者: Minglei Shi, Haolin Wang, Borui Zhang, Wenzhao Zheng, Bohan Zeng, Ziyang Yuan, Xiaoshi Wu, Yuanxing Zhang, Huan Yang, Xintao Wang, Pengfei Wan, Kun Gai, Jie Zhou, Jiwen Lu
cs.AI

要旨

視覚基盤モデル(VFM)の表現に基づく視覚生成は、視覚的理解、知覚、生成を統合する非常に有望な統一的なアプローチを提供する。この可能性にもかかわらず、VFM表現空間内で大規模なテキストから画像への拡散モデルを完全に学習する手法は、ほとんど未開拓の領域である。この隔たりを埋めるため、我々はSVG(自己教師あり視覚生成表現)フレームワークを拡張し、VFM特徴領域で直接高品質なテキストから画像への合成を実現するSVG-T2Iを提案する。標準的なテキストから画像への拡散パイプラインを活用することで、SVG-T2Iは競争力のある性能を達成し、GenEvalで0.75、DPG-Benchで85.78のスコアを記録した。この性能は、生成タスクにおけるVFMの本質的な表現能力を実証している。本研究では、オートエンコーダと生成モデル、それらの学習・推論・評価パイプライン、および事前学習済み重みを含むプロジェクトを完全にオープンソース化し、表現駆動型視覚生成のさらなる研究促進を図る。
English
Visual generation grounded in Visual Foundation Model (VFM) representations offers a highly promising unified pathway for integrating visual understanding, perception, and generation. Despite this potential, training large-scale text-to-image diffusion models entirely within the VFM representation space remains largely unexplored. To bridge this gap, we scale the SVG (Self-supervised representations for Visual Generation) framework, proposing SVG-T2I to support high-quality text-to-image synthesis directly in the VFM feature domain. By leveraging a standard text-to-image diffusion pipeline, SVG-T2I achieves competitive performance, reaching 0.75 on GenEval and 85.78 on DPG-Bench. This performance validates the intrinsic representational power of VFMs for generative tasks. We fully open-source the project, including the autoencoder and generation model, together with their training, inference, evaluation pipelines, and pre-trained weights, to facilitate further research in representation-driven visual generation.
PDF343December 17, 2025