ChatPaper.aiChatPaper

SVG-T2I: 변분 오토인코더 없이 텍스트-이미지 잠재 확산 모델의 규모 확장

SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder

December 12, 2025
저자: Minglei Shi, Haolin Wang, Borui Zhang, Wenzhao Zheng, Bohan Zeng, Ziyang Yuan, Xiaoshi Wu, Yuanxing Zhang, Huan Yang, Xintao Wang, Pengfei Wan, Kun Gai, Jie Zhou, Jiwen Lu
cs.AI

초록

비주얼 파운데이션 모델(VFM) 표현에 기반한 시각 생성은 시각적 이해, 인식, 생성의 통합을 위한 매우 유망한 통합 경로를 제공합니다. 이러한 잠재력에도 불구하고, VFM 표현 공간 전체에서 대규모 텍스트-이미지 확산 모델을 완전히 학습하는 방법은 여전히 크게 탐구되지 않았습니다. 이러한 격차를 해소하기 위해 우리는 SVG(시각 생성을 위한 자기 지도 표현) 프레임워크를 확장하여 VFM 특징 영역에서 직접 고품질 텍스트-이미지 합성을 지원하는 SVG-T2I를 제안합니다. 표준 텍스트-이미지 확산 파이프라인을 활용한 SVG-T2I는 GenEval에서 0.75, DPG-Bench에서 85.78점에 도달하는 경쟁력 있는 성능을 달성합니다. 이 성능은 생성 작업에 대한 VFM의 내재적 표현 능력을 입증합니다. 표현 주도 시각 생성 연구의 활성화를 위해 오토인코더 및 생성 모델, 해당 학습/추론/평가 파이프라인, 사전 학습된 가중치를 포함한 프로젝트 전체를 오픈소스로 공개합니다.
English
Visual generation grounded in Visual Foundation Model (VFM) representations offers a highly promising unified pathway for integrating visual understanding, perception, and generation. Despite this potential, training large-scale text-to-image diffusion models entirely within the VFM representation space remains largely unexplored. To bridge this gap, we scale the SVG (Self-supervised representations for Visual Generation) framework, proposing SVG-T2I to support high-quality text-to-image synthesis directly in the VFM feature domain. By leveraging a standard text-to-image diffusion pipeline, SVG-T2I achieves competitive performance, reaching 0.75 on GenEval and 85.78 on DPG-Bench. This performance validates the intrinsic representational power of VFMs for generative tasks. We fully open-source the project, including the autoencoder and generation model, together with their training, inference, evaluation pipelines, and pre-trained weights, to facilitate further research in representation-driven visual generation.
PDF343December 17, 2025