ChatPaper.aiChatPaper

의미론과 재구성 모두 중요하다: 텍스트-이미지 생성 및 편집을 위한 표현 인코더 준비하기

Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing

December 19, 2025
저자: Shilong Zhang, He Zhang, Zhifei Zhang, Chongjian Ge, Shuchen Xue, Shaoteng Liu, Mengwei Ren, Soo Ye Kim, Yuqian Zhou, Qing Liu, Daniil Pakhomov, Kai Zhang, Zhe Lin, Ping Luo
cs.AI

초록

현대 잠재 디퓨전 모델(LDM)은 일반적으로 픽셀 수준 재구성에 최적화된 저수준 변분 오토인코더(VAE) 잠재 공간에서 동작합니다. 시각 생성과 이해를 통합하기 위한 새로운 트렌드로, 표현 인코더의 고차원 특징을 생성 잠재 변수로 채택하는 방법이 부상하고 있습니다. 그러나 본 연구에서는 이러한 패러다임에서 두 가지 근본적인 장애요인을 실증적으로 확인했습니다: (1) 판별적 특징 공간은 컴팩트한 정규화가 부족하여 디퓨전 모델이 부정확한 객체 구조를 초래하는 매니폴드 이탈 잠재 변수를 생성하기 쉽고; (2) 인코더의 본질적으로 취약한 픽셀 수준 재구성 능력은 생성기가 정확한 세부 기하학 및 질감 학습을 방해합니다. 본 논문에서는 생성 작업에 적합하도록 이해 지향적 인코더 특징을 체계적으로 적용하는 프레임워크를 제안합니다. 우리는 의미론적-픽셀 재구성 목표를 도입하여 잠재 공간을 정규화함으로써 의미 정보와 세부 사항을 모두 고도로 컴팩트한 표현(16x16 공간 다운샘플링, 96채널)으로 압축할 수 있도록 합니다. 이 설계는 잠재 공간이 의미론적으로 풍부함을 유지하면서 최첨단 이미지 재구성을 달성하고, 정확한 생성에 충분히 컴팩트하게 만듭니다. 이 표현을 활용하여 텍스트-이미지(T2I) 생성 및 이미지 편집을 통합한 모델을 설계합니다. 다양한 특징 공간과의 벤치마킹을 통해 우리의 접근 방식이 최첨단 재구성 성능, 더 빠른 수렴 속도, T2I 및 편집 작업 모두에서 상당한 성능 향상을 달성함을 입증하며, 표현 인코더가 강력한 생성 구성 요소로 효과적으로 적용될 수 있음을 검증합니다.
English
Modern Latent Diffusion Models (LDMs) typically operate in low-level Variational Autoencoder (VAE) latent spaces that are primarily optimized for pixel-level reconstruction. To unify vision generation and understanding, a burgeoning trend is to adopt high-dimensional features from representation encoders as generative latents. However, we empirically identify two fundamental obstacles in this paradigm: (1) the discriminative feature space lacks compact regularization, making diffusion models prone to off-manifold latents that lead to inaccurate object structures; and (2) the encoder's inherently weak pixel-level reconstruction hinders the generator from learning accurate fine-grained geometry and texture. In this paper, we propose a systematic framework to adapt understanding-oriented encoder features for generative tasks. We introduce a semantic-pixel reconstruction objective to regularize the latent space, enabling the compression of both semantic information and fine-grained details into a highly compact representation (96 channels with 16x16 spatial downsampling). This design ensures that the latent space remains semantically rich and achieves state-of-the-art image reconstruction, while remaining compact enough for accurate generation. Leveraging this representation, we design a unified Text-to-Image (T2I) and image editing model. Benchmarking against various feature spaces, we demonstrate that our approach achieves state-of-the-art reconstruction, faster convergence, and substantial performance gains in both T2I and editing tasks, validating that representation encoders can be effectively adapted into robust generative components.
PDF292December 23, 2025