ChatPaper.aiChatPaper

Sowohl Semantik als auch Rekonstruktion sind entscheidend: Repräsentations-Encoder für Text-zu-Bild-Generierung und -Bearbeitung optimieren

Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing

December 19, 2025
papers.authors: Shilong Zhang, He Zhang, Zhifei Zhang, Chongjian Ge, Shuchen Xue, Shaoteng Liu, Mengwei Ren, Soo Ye Kim, Yuqian Zhou, Qing Liu, Daniil Pakhomov, Kai Zhang, Zhe Lin, Ping Luo
cs.AI

papers.abstract

Moderne Latent Diffusion Models (LDMs) operieren typischerweise in latenten Räumen von Variational Autoencodern (VAEs) auf niedriger Ebene, die primär für eine Pixel-für-Pixel-Rekonstruktion optimiert sind. Um Bildgenerierung und Bildverständnis zu vereinheitlichen, zeichnet sich ein neuer Trend ab, hochdimensionale Merkmale von Repräsentations-Encodern als generative Latents zu verwenden. Wir identifizieren jedoch empirisch zwei grundlegende Hindernisse in diesem Paradigma: (1) Dem diskriminativen Merkmalsraum mangelt es an kompakter Regularisierung, was dazu führt, dass Diffusionsmodelle anfällig für Latents außerhalb der Mannigfaltigkeit sind, die zu ungenauen Objektstrukturen führen; und (2) Die inhärent schwache Pixel-rekonstruktion des Encoders behindert den Generator beim Erlernen präziser, feingranularer Geometrie und Textur. In diesem Artikel schlagen wir einen systematischen Rahmen vor, um verständnisorientierte Encoder-Merkmale für generative Aufgaben anzupassen. Wir führen ein semantisch-pixelbezogenes Rekonstruktionsziel ein, um den latenten Raum zu regularisieren und so sowohl semantische Informationen als auch feingranulare Details in einer hochkompakten Repräsentation (96 Kanäle mit 16x16 räumlicher Unterabtastung) zu komprimieren. Dieses Design stellt sicher, dass der latente Raum semantisch reichhaltig bleibt und eine state-of-the-art Bildrekonstruktion erreicht, während er kompakt genug für eine präzise Generierung bleibt. Aufbauend auf dieser Repräsentation entwerfen wir ein einheitliches Text-zu-Bild (T2I) und Bildbearbeitungsmodell. Durch einen Vergleich mit verschiedenen Merkmalsräumen zeigen wir, dass unser Ansatz eine state-of-the-art Rekonstruktion, schnellere Konvergenz und erhebliche Leistungssteigerungen sowohl in T2I- als auch in Bearbeitungsaufgaben erreicht. Dies validiert, dass Repräsentations-Encoder effektiv zu robusten generativen Komponenten adaptiert werden können.
English
Modern Latent Diffusion Models (LDMs) typically operate in low-level Variational Autoencoder (VAE) latent spaces that are primarily optimized for pixel-level reconstruction. To unify vision generation and understanding, a burgeoning trend is to adopt high-dimensional features from representation encoders as generative latents. However, we empirically identify two fundamental obstacles in this paradigm: (1) the discriminative feature space lacks compact regularization, making diffusion models prone to off-manifold latents that lead to inaccurate object structures; and (2) the encoder's inherently weak pixel-level reconstruction hinders the generator from learning accurate fine-grained geometry and texture. In this paper, we propose a systematic framework to adapt understanding-oriented encoder features for generative tasks. We introduce a semantic-pixel reconstruction objective to regularize the latent space, enabling the compression of both semantic information and fine-grained details into a highly compact representation (96 channels with 16x16 spatial downsampling). This design ensures that the latent space remains semantically rich and achieves state-of-the-art image reconstruction, while remaining compact enough for accurate generation. Leveraging this representation, we design a unified Text-to-Image (T2I) and image editing model. Benchmarking against various feature spaces, we demonstrate that our approach achieves state-of-the-art reconstruction, faster convergence, and substantial performance gains in both T2I and editing tasks, validating that representation encoders can be effectively adapted into robust generative components.
PDF292December 23, 2025