Tanto la Semántica como la Reconstrucción Importan: Preparando los Codificadores de Representación para la Generación y Edición de Imágenes a partir de Texto

Resumen

Los Modelos de Difusión Latente (LDM) modernos suelen operar en espacios latentes de Autoencoders Variacionales (VAE) de bajo nivel, optimizados principalmente para la reconstrucción a nivel de píxeles. Para unificar la generación y la comprensión visual, una tendencia emergente es adoptar características de alta dimensión de codificadores de representación como latentes generativos. Sin embargo, identificamos empíricamente dos obstáculos fundamentales en este paradigma: (1) el espacio de características discriminativas carece de regularización compacta, lo que hace que los modelos de difusión sean propensos a latentes fuera del manifold que conducen a estructuras de objetos inexactas; y (2) la inherente debilidad del codificador en la reconstrucción a nivel de píxel impide que el generador aprenda geometría y textura finamente detalladas de forma precisa. En este artículo, proponemos un marco sistemático para adaptar características de codificadores orientados a la comprensión para tareas generativas. Introducimos un objetivo de reconstrucción semántica-pixel para regularizar el espacio latente, permitiendo comprimir tanto la información semántica como los detalles finos en una representación altamente compacta (96 canales con submuestreo espacial de 16x16). Este diseño garantiza que el espacio latente siga siendo semánticamente rico y logre una reconstrucción de imágenes de vanguardia, manteniéndose lo suficientemente compacto para una generación precisa. Aprovechando esta representación, diseñamos un modelo unificado de Texto a Imagen (T2I) y edición de imágenes. Al compararlo con varios espacios de características, demostramos que nuestro enfoque logra una reconstrucción de vanguardia, una convergencia más rápida y mejoras sustanciales de rendimiento tanto en tareas T2I como de edición, validando que los codificadores de representación pueden adaptarse eficazmente como componentes generativos robustos.

English

Modern Latent Diffusion Models (LDMs) typically operate in low-level Variational Autoencoder (VAE) latent spaces that are primarily optimized for pixel-level reconstruction. To unify vision generation and understanding, a burgeoning trend is to adopt high-dimensional features from representation encoders as generative latents. However, we empirically identify two fundamental obstacles in this paradigm: (1) the discriminative feature space lacks compact regularization, making diffusion models prone to off-manifold latents that lead to inaccurate object structures; and (2) the encoder's inherently weak pixel-level reconstruction hinders the generator from learning accurate fine-grained geometry and texture. In this paper, we propose a systematic framework to adapt understanding-oriented encoder features for generative tasks. We introduce a semantic-pixel reconstruction objective to regularize the latent space, enabling the compression of both semantic information and fine-grained details into a highly compact representation (96 channels with 16x16 spatial downsampling). This design ensures that the latent space remains semantically rich and achieves state-of-the-art image reconstruction, while remaining compact enough for accurate generation. Leveraging this representation, we design a unified Text-to-Image (T2I) and image editing model. Benchmarking against various feature spaces, we demonstrate that our approach achieves state-of-the-art reconstruction, faster convergence, and substantial performance gains in both T2I and editing tasks, validating that representation encoders can be effectively adapted into robust generative components.

Tanto la Semántica como la Reconstrucción Importan: Preparando los Codificadores de Representación para la Generación y Edición de Imágenes a partir de Texto

Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing

Resumen

Support