ChatPaper.aiChatPaper

Tanto a Semântica quanto a Reconstrução Importam: Preparando Codificadores de Representação para Geração e Edição de Imagens a partir de Texto

Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing

December 19, 2025
Autores: Shilong Zhang, He Zhang, Zhifei Zhang, Chongjian Ge, Shuchen Xue, Shaoteng Liu, Mengwei Ren, Soo Ye Kim, Yuqian Zhou, Qing Liu, Daniil Pakhomov, Kai Zhang, Zhe Lin, Ping Luo
cs.AI

Resumo

Os Modelos de Difusão Latente (LDMs) modernos geralmente operam em espaços latentes de Autoencoders Variacionais (VAEs) de baixo nível, otimizados principalmente para reconstrução a nível de pixel. Para unificar a geração e compreensão visual, uma tendência emergente é adotar características de alta dimensão de codificadores de representação como latentes gerativos. No entanto, identificamos empiricamente dois obstáculos fundamentais neste paradigma: (1) o espaço de características discriminativo carece de regularização compacta, tornando os modelos de difusão propensos a latentes fora da variedade que levam a estruturas de objetos imprecisas; e (2) a reconstrução a nível de pixel intrinsecamente fraca do codificador impede o gerador de aprender geometria e textura de granularidade fina precisas. Neste artigo, propomos um framework sistemático para adaptar características de codificadores orientados à compreensão para tarefas generativas. Introduzimos um objetivo de reconstrução semântica-pixel para regularizar o espaço latente, permitindo a compressão de informações semânticas e detalhes de granularidade fina em uma representação altamente compacta (96 canais com subamostragem espacial de 16x16). Este projeto garante que o espaço latente permaneça semanticamente rico e alcance reconstrução de imagem state-of-the-art, mantendo-se compacto o suficiente para geração precisa. Aproveitando esta representação, projetamos um modelo unificado de Texto para Imagem (T2I) e edição de imagem. Comparando com vários espaços de características, demonstramos que nossa abordagem alcança reconstrução state-of-the-art, convergência mais rápida e ganhos substanciais de desempenho em tarefas T2I e de edição, validando que codificadores de representação podem ser efetivamente adaptados em componentes generativos robustos.
English
Modern Latent Diffusion Models (LDMs) typically operate in low-level Variational Autoencoder (VAE) latent spaces that are primarily optimized for pixel-level reconstruction. To unify vision generation and understanding, a burgeoning trend is to adopt high-dimensional features from representation encoders as generative latents. However, we empirically identify two fundamental obstacles in this paradigm: (1) the discriminative feature space lacks compact regularization, making diffusion models prone to off-manifold latents that lead to inaccurate object structures; and (2) the encoder's inherently weak pixel-level reconstruction hinders the generator from learning accurate fine-grained geometry and texture. In this paper, we propose a systematic framework to adapt understanding-oriented encoder features for generative tasks. We introduce a semantic-pixel reconstruction objective to regularize the latent space, enabling the compression of both semantic information and fine-grained details into a highly compact representation (96 channels with 16x16 spatial downsampling). This design ensures that the latent space remains semantically rich and achieves state-of-the-art image reconstruction, while remaining compact enough for accurate generation. Leveraging this representation, we design a unified Text-to-Image (T2I) and image editing model. Benchmarking against various feature spaces, we demonstrate that our approach achieves state-of-the-art reconstruction, faster convergence, and substantial performance gains in both T2I and editing tasks, validating that representation encoders can be effectively adapted into robust generative components.
PDF376February 27, 2026