ChatPaper.aiChatPaper

SVG-T2I: Opschaling van het Latente Diffusiemodel voor Tekst-naar-Afbeelding zonder Variational Autoencoder

SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder

December 12, 2025
Auteurs: Minglei Shi, Haolin Wang, Borui Zhang, Wenzhao Zheng, Bohan Zeng, Ziyang Yuan, Xiaoshi Wu, Yuanxing Zhang, Huan Yang, Xintao Wang, Pengfei Wan, Kun Gai, Jie Zhou, Jiwen Lu
cs.AI

Samenvatting

Visuele generatie gebaseerd op representaties van Visuele Fundamentmodellen (VFM's) biedt een veelbelovend uniform raamwerk voor het integreren van visueel begrip, perceptie en generatie. Ondanks dit potentieel blijft de training van grootschalige tekst-naar-beeld diffusiemodellen volledig binnen de VFM-representatieruimte grotendeels onontgonnen. Om deze kloof te overbruggen, schalen we het SVG-raamwerk (Zelf-gesuperviseerde representaties voor Visuele Generatie) op en stellen we SVG-T2I voor om hoogwaardige tekst-naar-beeldsynthese rechtstreeks in het VFM-domein mogelijk te maken. Door gebruik te maken van een standaard tekst-naar-beeld diffusiepijplijn bereikt SVG-T2I competitieve prestaties, met een score van 0.75 op GenEval en 85.78 op DPG-Bench. Deze prestaties valideren de intrinsieke representatiekracht van VFM's voor generatieve taken. We stellen het project volledig open-source, inclusief de auto-encoder en het generatiemodel, samen met hun trainings-, inferentie- en evaluatiepijplijnen en vooraf getrainde gewichten, om verder onderzoek in representatie-gedreven visuele generatie te faciliteren.
English
Visual generation grounded in Visual Foundation Model (VFM) representations offers a highly promising unified pathway for integrating visual understanding, perception, and generation. Despite this potential, training large-scale text-to-image diffusion models entirely within the VFM representation space remains largely unexplored. To bridge this gap, we scale the SVG (Self-supervised representations for Visual Generation) framework, proposing SVG-T2I to support high-quality text-to-image synthesis directly in the VFM feature domain. By leveraging a standard text-to-image diffusion pipeline, SVG-T2I achieves competitive performance, reaching 0.75 on GenEval and 85.78 on DPG-Bench. This performance validates the intrinsic representational power of VFMs for generative tasks. We fully open-source the project, including the autoencoder and generation model, together with their training, inference, evaluation pipelines, and pre-trained weights, to facilitate further research in representation-driven visual generation.
PDF343December 17, 2025