SVG-T2I: Escalando o Modelo de Difusão Latente de Texto para Imagem Sem Autoencoder Variacional
SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder
December 12, 2025
Autores: Minglei Shi, Haolin Wang, Borui Zhang, Wenzhao Zheng, Bohan Zeng, Ziyang Yuan, Xiaoshi Wu, Yuanxing Zhang, Huan Yang, Xintao Wang, Pengfei Wan, Kun Gai, Jie Zhou, Jiwen Lu
cs.AI
Resumo
A geração visual baseada em representações de Modelos de Base Visual (VFMs) oferece um caminho unificado altamente promissor para integrar compreensão, percepção e geração visual. Apesar desse potencial, o treinamento de modelos de difusão de grande escala para texto em imagem inteiramente dentro do espaço de representação do VFM permanece amplamente inexplorado. Para preencher esta lacuna, nós dimensionamos a estrutura SVG (Representações Auto-supervisionadas para Geração Visual), propondo o SVG-T2I para suportar a síntese de texto para imagem de alta qualidade diretamente no domínio de características do VFM. Ao aproveitar um pipeline padrão de difusão de texto para imagem, o SVG-T2I alcança um desempenho competitivo, atingindo 0.75 no GenEval e 85.78 no DPG-Bench. Este desempenho valida o poder representacional intrínseco dos VFMs para tarefas generativas. Nós disponibilizamos o projeto em código aberto, incluindo o autoencoder e o modelo de geração, juntamente com seus pipelines de treinamento, inferência, avaliação e pesos pré-treinados, para facilitar pesquisas futuras em geração visual orientada por representações.
English
Visual generation grounded in Visual Foundation Model (VFM) representations offers a highly promising unified pathway for integrating visual understanding, perception, and generation. Despite this potential, training large-scale text-to-image diffusion models entirely within the VFM representation space remains largely unexplored. To bridge this gap, we scale the SVG (Self-supervised representations for Visual Generation) framework, proposing SVG-T2I to support high-quality text-to-image synthesis directly in the VFM feature domain. By leveraging a standard text-to-image diffusion pipeline, SVG-T2I achieves competitive performance, reaching 0.75 on GenEval and 85.78 on DPG-Bench. This performance validates the intrinsic representational power of VFMs for generative tasks. We fully open-source the project, including the autoencoder and generation model, together with their training, inference, evaluation pipelines, and pre-trained weights, to facilitate further research in representation-driven visual generation.