SVG-T2I: Scalabilità del Modello di Diffusione Latente per la Generazione di Immagini da Testo Senza Autoencoder Variazionale
SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder
December 12, 2025
Autori: Minglei Shi, Haolin Wang, Borui Zhang, Wenzhao Zheng, Bohan Zeng, Ziyang Yuan, Xiaoshi Wu, Yuanxing Zhang, Huan Yang, Xintao Wang, Pengfei Wan, Kun Gai, Jie Zhou, Jiwen Lu
cs.AI
Abstract
La generazione visiva basata su rappresentazioni di Modelli Fondazionali Visivi (VFM) offre una via unificata estremamente promettente per integrare comprensione, percezione e generazione visiva. Nonostante questo potenziale, l'addestramento di modelli di diffusione testo-immagine su larga scala interamente nello spazio rappresentazionale dei VFM rimane in gran parte inesplorato. Per colmare questa lacuna, abbiamo scalato il framework SVG (Rappresentazioni Auto-supervisionate per la Generazione Visiva), proponendo SVG-T2I per supportare la sintesi di alta qualità da testo a immagine direttamente nel dominio delle caratteristiche VFM. Sfruttando una pipeline standard di diffusione testo-immagine, SVG-T2I raggiunge prestazioni competitive, ottenendo 0.75 su GenEval e 85.78 su DPG-Bench. Queste prestazioni convalidano il potere rappresentazionale intrinseco dei VFM per compiti generativi. Rendiamo il progetto completamente open-source, includendo l'autoencoder e il modello di generazione, insieme alle loro pipeline di addestramento, inferenza, valutazione e pesi pre-addestrati, per facilitare ulteriori ricerche nella generazione visiva guidata da rappresentazioni.
English
Visual generation grounded in Visual Foundation Model (VFM) representations offers a highly promising unified pathway for integrating visual understanding, perception, and generation. Despite this potential, training large-scale text-to-image diffusion models entirely within the VFM representation space remains largely unexplored. To bridge this gap, we scale the SVG (Self-supervised representations for Visual Generation) framework, proposing SVG-T2I to support high-quality text-to-image synthesis directly in the VFM feature domain. By leveraging a standard text-to-image diffusion pipeline, SVG-T2I achieves competitive performance, reaching 0.75 on GenEval and 85.78 on DPG-Bench. This performance validates the intrinsic representational power of VFMs for generative tasks. We fully open-source the project, including the autoencoder and generation model, together with their training, inference, evaluation pipelines, and pre-trained weights, to facilitate further research in representation-driven visual generation.