Sémantique et reconstruction comptent : préparer les encodeurs de représentation pour la génération et l'édition texte-image
Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing
December 19, 2025
papers.authors: Shilong Zhang, He Zhang, Zhifei Zhang, Chongjian Ge, Shuchen Xue, Shaoteng Liu, Mengwei Ren, Soo Ye Kim, Yuqian Zhou, Qing Liu, Daniil Pakhomov, Kai Zhang, Zhe Lin, Ping Luo
cs.AI
papers.abstract
Les modèles de diffusion latente (LDM) modernes opèrent généralement dans des espaces latents de type VAE de bas niveau, principalement optimisés pour la reconstruction au niveau pixel. Pour unifier la génération et la compréhension visuelles, une tendance émergente consiste à adopter des caractéristiques de haute dimension issues d'encodeurs de représentation comme latents génératifs. Cependant, nous identifions empiriquement deux obstacles fondamentaux dans ce paradigme : (1) l'espace de caractéristiques discriminatif manque de régularisation compacte, rendant les modèles de diffusion sensibles aux latents hors-variété qui produisent des structures d'objet inexactes ; et (2) la reconstruction au niveau pixel intrinsèquement faible de l'encodeur empêche le générateur d'apprendre une géométrie et une texture précises à grain fin. Dans cet article, nous proposons un cadre systématique pour adapter les caractéristiques d'encodeurs orientés compréhension à des tâches génératives. Nous introduisons un objectif de reconstruction sémantique-pixel pour régulariser l'espace latent, permettant la compression à la fois de l'information sémantique et des détails à grain fin en une représentation hautement compacte (96 canaux avec un sous-échantillonnage spatial de 16x16). Cette conception garantit que l'espace latent reste sémantiquement riche et atteint une reconstruction d'image à l'état de l'art, tout en restant suffisamment compact pour une génération précise. En tirant parti de cette représentation, nous concevons un modèle unifié de texte-à-image (T2I) et d'édition d'image. En comparant divers espaces de caractéristiques, nous démontrons que notre approche atteint une reconstruction à l'état de l'art, une convergence plus rapide et des gains de performance substantiels dans les tâches T2I et d'édition, validant que les encodeurs de représentation peuvent être efficacement adaptés en composants génératifs robustes.
English
Modern Latent Diffusion Models (LDMs) typically operate in low-level Variational Autoencoder (VAE) latent spaces that are primarily optimized for pixel-level reconstruction. To unify vision generation and understanding, a burgeoning trend is to adopt high-dimensional features from representation encoders as generative latents. However, we empirically identify two fundamental obstacles in this paradigm: (1) the discriminative feature space lacks compact regularization, making diffusion models prone to off-manifold latents that lead to inaccurate object structures; and (2) the encoder's inherently weak pixel-level reconstruction hinders the generator from learning accurate fine-grained geometry and texture. In this paper, we propose a systematic framework to adapt understanding-oriented encoder features for generative tasks. We introduce a semantic-pixel reconstruction objective to regularize the latent space, enabling the compression of both semantic information and fine-grained details into a highly compact representation (96 channels with 16x16 spatial downsampling). This design ensures that the latent space remains semantically rich and achieves state-of-the-art image reconstruction, while remaining compact enough for accurate generation. Leveraging this representation, we design a unified Text-to-Image (T2I) and image editing model. Benchmarking against various feature spaces, we demonstrate that our approach achieves state-of-the-art reconstruction, faster convergence, and substantial performance gains in both T2I and editing tasks, validating that representation encoders can be effectively adapted into robust generative components.