ChatPaper.aiChatPaper

SVG-T2I: Skalierung latenter Diffusionsmodelle für Text-zu-Bild-Generierung ohne Variationsautoencoder

SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder

December 12, 2025
papers.authors: Minglei Shi, Haolin Wang, Borui Zhang, Wenzhao Zheng, Bohan Zeng, Ziyang Yuan, Xiaoshi Wu, Yuanxing Zhang, Huan Yang, Xintao Wang, Pengfei Wan, Kun Gai, Jie Zhou, Jiwen Lu
cs.AI

papers.abstract

Visuelle Generierung auf Basis von Repräsentationen visueller Grundlagenmodelle (VFM) bietet einen vielversprechenden einheitlichen Ansatz zur Integration von visuellem Verständnis, Wahrnehmung und Generierung. Trotz dieses Potenzials ist das Training großskaliger Text-zu-Bild-Diffusionsmodelle vollständig im VFM-Repräsentationsraum weitgehend unerforscht. Um diese Lücke zu schließen, skalieren wir das SVG-Framework (Self-supervised representations for Visual Generation) und schlagen SVG-T2I vor, um hochwertige Text-zu-Bild-Synthese direkt im VFM-Merkmalsbereich zu ermöglichen. Durch die Nutzung einer standardmäßigen Text-zu-Bild-Diffusionspipeline erzielt SVG-T2I wettbewerbsfähige Leistungen, die 0,75 auf GenEval und 85,78 auf DPG-Bench erreichen. Diese Leistung bestätigt die intrinsische Repräsentationskraft von VFMs für generative Aufgaben. Wir stellen das Projekt vollständig als Open Source zur Verfügung, einschließlich Autoencoder, Generierungsmodell, deren Trainings-, Inferenz- und Evaluierungspipelines sowie vortrainierter Gewichte, um weitere Forschung in repräsentationsgesteuerter visueller Generierung zu fördern.
English
Visual generation grounded in Visual Foundation Model (VFM) representations offers a highly promising unified pathway for integrating visual understanding, perception, and generation. Despite this potential, training large-scale text-to-image diffusion models entirely within the VFM representation space remains largely unexplored. To bridge this gap, we scale the SVG (Self-supervised representations for Visual Generation) framework, proposing SVG-T2I to support high-quality text-to-image synthesis directly in the VFM feature domain. By leveraging a standard text-to-image diffusion pipeline, SVG-T2I achieves competitive performance, reaching 0.75 on GenEval and 85.78 on DPG-Bench. This performance validates the intrinsic representational power of VFMs for generative tasks. We fully open-source the project, including the autoencoder and generation model, together with their training, inference, evaluation pipelines, and pre-trained weights, to facilitate further research in representation-driven visual generation.
PDF343December 17, 2025