Tanto a Semântica quanto a Reconstrução Importam: Preparando Codificadores de Representação para Geração e Edição de Imagens a partir de Texto

Resumo

Os Modelos de Difusão Latente (LDMs) modernos geralmente operam em espaços latentes de Autoencoders Variacionais (VAEs) de baixo nível, otimizados principalmente para reconstrução a nível de pixel. Para unificar a geração e compreensão visual, uma tendência emergente é adotar características de alta dimensão de codificadores de representação como latentes gerativos. No entanto, identificamos empiricamente dois obstáculos fundamentais neste paradigma: (1) o espaço de características discriminativo carece de regularização compacta, tornando os modelos de difusão propensos a latentes fora da variedade que levam a estruturas de objetos imprecisas; e (2) a reconstrução a nível de pixel intrinsecamente fraca do codificador impede o gerador de aprender geometria e textura de granularidade fina precisas. Neste artigo, propomos um framework sistemático para adaptar características de codificadores orientados à compreensão para tarefas generativas. Introduzimos um objetivo de reconstrução semântica-pixel para regularizar o espaço latente, permitindo a compressão de informações semânticas e detalhes de granularidade fina em uma representação altamente compacta (96 canais com subamostragem espacial de 16x16). Este projeto garante que o espaço latente permaneça semanticamente rico e alcance reconstrução de imagem state-of-the-art, mantendo-se compacto o suficiente para geração precisa. Aproveitando esta representação, projetamos um modelo unificado de Texto para Imagem (T2I) e edição de imagem. Comparando com vários espaços de características, demonstramos que nossa abordagem alcança reconstrução state-of-the-art, convergência mais rápida e ganhos substanciais de desempenho em tarefas T2I e de edição, validando que codificadores de representação podem ser efetivamente adaptados em componentes generativos robustos.

English

Modern Latent Diffusion Models (LDMs) typically operate in low-level Variational Autoencoder (VAE) latent spaces that are primarily optimized for pixel-level reconstruction. To unify vision generation and understanding, a burgeoning trend is to adopt high-dimensional features from representation encoders as generative latents. However, we empirically identify two fundamental obstacles in this paradigm: (1) the discriminative feature space lacks compact regularization, making diffusion models prone to off-manifold latents that lead to inaccurate object structures; and (2) the encoder's inherently weak pixel-level reconstruction hinders the generator from learning accurate fine-grained geometry and texture. In this paper, we propose a systematic framework to adapt understanding-oriented encoder features for generative tasks. We introduce a semantic-pixel reconstruction objective to regularize the latent space, enabling the compression of both semantic information and fine-grained details into a highly compact representation (96 channels with 16x16 spatial downsampling). This design ensures that the latent space remains semantically rich and achieves state-of-the-art image reconstruction, while remaining compact enough for accurate generation. Leveraging this representation, we design a unified Text-to-Image (T2I) and image editing model. Benchmarking against various feature spaces, we demonstrate that our approach achieves state-of-the-art reconstruction, faster convergence, and substantial performance gains in both T2I and editing tasks, validating that representation encoders can be effectively adapted into robust generative components.

Tanto a Semântica quanto a Reconstrução Importam: Preparando Codificadores de Representação para Geração e Edição de Imagens a partir de Texto

Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing

Resumo

Support