SVG-T2I : Mise à l'échelle d'un modèle de diffusion latente texte-image sans autoencodeur variationnel
SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder
December 12, 2025
papers.authors: Minglei Shi, Haolin Wang, Borui Zhang, Wenzhao Zheng, Bohan Zeng, Ziyang Yuan, Xiaoshi Wu, Yuanxing Zhang, Huan Yang, Xintao Wang, Pengfei Wan, Kun Gai, Jie Zhou, Jiwen Lu
cs.AI
papers.abstract
La génération visuelle ancrée dans les représentations des modèles de fondation visuelle (VFM) offre une voie unifiée très prometteuse pour intégrer la compréhension, la perception et la génération visuelles. Malgré ce potentiel, l'entraînement de modèles de diffusion à grande échelle de texte-à-image entièrement dans l'espace de représentation des VFM reste largement inexploré. Pour combler cette lacune, nous mettons à l'échelle le cadre SVG (Représentations auto-supervisées pour la Génération Visuelle), en proposant SVG-T2I pour supporter la synthèse texte-à-image de haute qualité directement dans le domaine des caractéristiques VFM. En tirant parti d'un pipeline de diffusion texte-à-image standard, SVG-T2I atteint des performances compétitives, obtenant un score de 0.75 sur GenEval et 85.78 sur DPG-Bench. Cette performance valide la puissance représentationnelle intrinsèque des VFM pour les tâches génératives. Nous ouvrons entièrement le projet en open-source, incluant l'autoencodeur et le modèle de génération, ainsi que leurs pipelines d'entraînement, d'inférence, d'évaluation et les poids pré-entraînés, pour faciliter les recherches futures sur la génération visuelle pilotée par les représentations.
English
Visual generation grounded in Visual Foundation Model (VFM) representations offers a highly promising unified pathway for integrating visual understanding, perception, and generation. Despite this potential, training large-scale text-to-image diffusion models entirely within the VFM representation space remains largely unexplored. To bridge this gap, we scale the SVG (Self-supervised representations for Visual Generation) framework, proposing SVG-T2I to support high-quality text-to-image synthesis directly in the VFM feature domain. By leveraging a standard text-to-image diffusion pipeline, SVG-T2I achieves competitive performance, reaching 0.75 on GenEval and 85.78 on DPG-Bench. This performance validates the intrinsic representational power of VFMs for generative tasks. We fully open-source the project, including the autoencoder and generation model, together with their training, inference, evaluation pipelines, and pre-trained weights, to facilitate further research in representation-driven visual generation.