ChatPaper.aiChatPaper

SVG-T2I: Масштабирование латентной диффузионной модели для генерации изображений по тексту без использования вариационного автоэнкодера

SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder

December 12, 2025
Авторы: Minglei Shi, Haolin Wang, Borui Zhang, Wenzhao Zheng, Bohan Zeng, Ziyang Yuan, Xiaoshi Wu, Yuanxing Zhang, Huan Yang, Xintao Wang, Pengfei Wan, Kun Gai, Jie Zhou, Jiwen Lu
cs.AI

Аннотация

Визуальная генерация, основанная на представлениях моделей визуального фундамента (VFM), предлагает высокоперспективный унифицированный путь для интеграции визуального понимания, восприятия и генерации. Несмотря на этот потенциал, обучение крупномасштабных диффузионных моделей «текст-изображение» полностью в пространстве представлений VFM остается в значительной степени неисследованным. Чтобы заполнить этот пробел, мы масштабируем фреймворк SVG (Self-supervised representations for Visual Generation), предлагая SVG-T2I для поддержки высококачественного синтеза «текст-изображение» непосредственно в признаковом пространстве VFM. Используя стандартный диффузионный конвейер «текст-изображение», SVG-T2I демонстрирует конкурентоспособные результаты, достигая 0.75 на GenEval и 85.78 на DPG-Bench. Эти результаты подтверждают внутреннюю силу представлений VFM для генеративных задач. Мы полностью открываем исходный код проекта, включая автоэнкодер и генеративную модель, вместе с их конвейерами обучения, вывода, оценки и предобученными весами, чтобы способствовать дальнейшим исследованиям в области визуальной генерации, управляемой представлениями.
English
Visual generation grounded in Visual Foundation Model (VFM) representations offers a highly promising unified pathway for integrating visual understanding, perception, and generation. Despite this potential, training large-scale text-to-image diffusion models entirely within the VFM representation space remains largely unexplored. To bridge this gap, we scale the SVG (Self-supervised representations for Visual Generation) framework, proposing SVG-T2I to support high-quality text-to-image synthesis directly in the VFM feature domain. By leveraging a standard text-to-image diffusion pipeline, SVG-T2I achieves competitive performance, reaching 0.75 on GenEval and 85.78 on DPG-Bench. This performance validates the intrinsic representational power of VFMs for generative tasks. We fully open-source the project, including the autoencoder and generation model, together with their training, inference, evaluation pipelines, and pre-trained weights, to facilitate further research in representation-driven visual generation.
PDF343December 17, 2025