SVG-T2I: Escalado del Modelo de Difusión Latente de Texto a Imagen Sin Autoencoder Variacional
SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder
December 12, 2025
Autores: Minglei Shi, Haolin Wang, Borui Zhang, Wenzhao Zheng, Bohan Zeng, Ziyang Yuan, Xiaoshi Wu, Yuanxing Zhang, Huan Yang, Xintao Wang, Pengfei Wan, Kun Gai, Jie Zhou, Jiwen Lu
cs.AI
Resumen
La generación visual basada en representaciones de Modelos Fundamentales Visuales (VFM) ofrece una vía unificada altamente prometedora para integrar la comprensión visual, la percepción y la generación. A pesar de este potencial, el entrenamiento de modelos de difusión a gran escala de texto-a-imagen completamente dentro del espacio de representación VFM sigue siendo un terreno prácticamente inexplorado. Para cerrar esta brecha, escalamos el marco SVG (Representaciones Autosupervisadas para Generación Visual), proponiendo SVG-T2I para sintetizar imágenes de alta calidad directamente en el dominio de características VFM. Al aprovechar una pipeline estándar de difusión texto-a-imagen, SVG-T2I logra un rendimiento competitivo, alcanzando 0.75 en GenEval y 85.78 en DPG-Bench. Este rendimiento valida el poder representacional intrínseco de los VFM para tareas generativas. Liberamos el proyecto completamente como código abierto, incluyendo el autoencoder y el modelo de generación, junto con sus pipelines de entrenamiento, inferencia, evaluación y los pesos preentrenados, para facilitar futuras investigaciones en generación visual impulsada por representaciones.
English
Visual generation grounded in Visual Foundation Model (VFM) representations offers a highly promising unified pathway for integrating visual understanding, perception, and generation. Despite this potential, training large-scale text-to-image diffusion models entirely within the VFM representation space remains largely unexplored. To bridge this gap, we scale the SVG (Self-supervised representations for Visual Generation) framework, proposing SVG-T2I to support high-quality text-to-image synthesis directly in the VFM feature domain. By leveraging a standard text-to-image diffusion pipeline, SVG-T2I achieves competitive performance, reaching 0.75 on GenEval and 85.78 on DPG-Bench. This performance validates the intrinsic representational power of VFMs for generative tasks. We fully open-source the project, including the autoencoder and generation model, together with their training, inference, evaluation pipelines, and pre-trained weights, to facilitate further research in representation-driven visual generation.