ChatPaper.aiChatPaper

Zowel Semantiek als Reconstructie zijn van Belang: Het Klaarstomen van Representatie-Encoders voor Tekst-naar-Beeld Generatie en Bewerking

Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing

December 19, 2025
Auteurs: Shilong Zhang, He Zhang, Zhifei Zhang, Chongjian Ge, Shuchen Xue, Shaoteng Liu, Mengwei Ren, Soo Ye Kim, Yuqian Zhou, Qing Liu, Daniil Pakhomov, Kai Zhang, Zhe Lin, Ping Luo
cs.AI

Samenvatting

Moderne Latent Diffusion Models (LDM's) opereren doorgaans in latentruimten van low-level Variational Autoencoders (VAE's) die primair zijn geoptimaliseerd voor pixelreconstructie. Om visuele generatie en begrip te verenigen, is een opkomende trend om hoogdimensionale features van representatie-encoders als generatieve latenties te gebruiken. Empirisch identificeren wij echter twee fundamentele obstakels in dit paradigma: (1) de discriminerende feature-ruimte mist compacte regularisatie, waardoor diffusion models gevoelig zijn voor off-manifold latenties die tot onnauwkeurige objectstructuren leiden; en (2) de inherent zwakke pixelreconstructie van de encoder belemmert de generator bij het leren van nauwkeurige fijne geometrie en textuur. In dit artikel stellen we een systematisch raamwerk voor om op begrip gerichte encoder-features aan te passen voor generatieve taken. We introduceren een semantisch-pixelreconstructiedoel om de latentruimte te regulariseren, waardoor zowel semantische informatie als fijne details worden gecomprimeerd tot een zeer compacte representatie (96 kanalen met 16x16 ruimtelijke downsampling). Dit ontwerp garandeert dat de latentruimte semantisch rijk blijft en state-of-the-art beeldreconstructie bereikt, terwijl deze compact genoeg blijft voor nauwkeurige generatie. Op basis van deze representatie ontwerpen we een verenigd Text-to-Image (T2I) en beeldbewerkingsmodel. Vergelijking met verschillende feature-ruimten toont aan dat onze aanpak state-of-the-art reconstructie, snellere convergentie en substantiële prestatieverbeteringen bereikt in zowel T2I- als bewerkings-taken, wat valideert dat representatie-encoders effectief kunnen worden aangepast tot robuuste generatieve componenten.
English
Modern Latent Diffusion Models (LDMs) typically operate in low-level Variational Autoencoder (VAE) latent spaces that are primarily optimized for pixel-level reconstruction. To unify vision generation and understanding, a burgeoning trend is to adopt high-dimensional features from representation encoders as generative latents. However, we empirically identify two fundamental obstacles in this paradigm: (1) the discriminative feature space lacks compact regularization, making diffusion models prone to off-manifold latents that lead to inaccurate object structures; and (2) the encoder's inherently weak pixel-level reconstruction hinders the generator from learning accurate fine-grained geometry and texture. In this paper, we propose a systematic framework to adapt understanding-oriented encoder features for generative tasks. We introduce a semantic-pixel reconstruction objective to regularize the latent space, enabling the compression of both semantic information and fine-grained details into a highly compact representation (96 channels with 16x16 spatial downsampling). This design ensures that the latent space remains semantically rich and achieves state-of-the-art image reconstruction, while remaining compact enough for accurate generation. Leveraging this representation, we design a unified Text-to-Image (T2I) and image editing model. Benchmarking against various feature spaces, we demonstrate that our approach achieves state-of-the-art reconstruction, faster convergence, and substantial performance gains in both T2I and editing tasks, validating that representation encoders can be effectively adapted into robust generative components.
PDF292December 23, 2025