ChatPaper.aiChatPaper

И семантика, и реконструкция важны: подготовка энкодеров представлений для задач генерации и редактирования изображений по тексту

Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing

December 19, 2025
Авторы: Shilong Zhang, He Zhang, Zhifei Zhang, Chongjian Ge, Shuchen Xue, Shaoteng Liu, Mengwei Ren, Soo Ye Kim, Yuqian Zhou, Qing Liu, Daniil Pakhomov, Kai Zhang, Zhe Lin, Ping Luo
cs.AI

Аннотация

Современные латентные диффузионные модели (LDM) обычно работают в низкоуровневых латентных пространствах вариационных автоэнкодеров (VAE), которые в первую очередь оптимизированы для пиксельной реконструкции. Для объединения задач генерации и понимания визуальных данных набирает популярность тенденция использовать в качестве генеративных латентных представлений высокоразмерные признаки из репрезентативных энкодеров. Однако мы эмпирически выявили два фундаментальных препятствия в данной парадигме: (1) дискриминативное пространство признаков lacks компактной регуляризации, что приводит к склонности диффузионных моделей к выходу за пределы многообразия латентных переменных и, как следствие, к некорректным объектным структурам; (2) изначально слабая пиксельная реконструкция энкодера препятствует обучению генератора точной мелкозернистой геометрии и текстуры. В данной статье мы предлагаем систематическую framework для адаптации признаков из энкодеров, ориентированных на понимание, для генеративных задач. Мы вводим задачу семантико-пиксельной реконструкции для регуляризации латентного пространства, позволяя сжимать как семантическую информацию, так и мелкозернистые детали в высококомпактное представление (96 каналов с пространственным уменьшением разрешения в 16 раз). Данный дизайн гарантирует, что латентное пространство остается семантически насыщенным и достигает передовых показателей реконструкции изображений, оставаясь при этом достаточно компактным для точной генерации. Используя это представление, мы разрабатываем унифицированную модель для генерации изображений по тексту (Text-to-Image, T2I) и редактирования изображений. Сравнительный анализ с различными пространствами признаков демонстрирует, что наш подход достигает state-of-the-art реконструкции, более быстрой сходимости и значительного прироста производительности как в задачах T2I, так и в редактировании, подтверждая, что репрезентативные энкодеры могут быть эффективно адаптированы в надежные генеративные компоненты.
English
Modern Latent Diffusion Models (LDMs) typically operate in low-level Variational Autoencoder (VAE) latent spaces that are primarily optimized for pixel-level reconstruction. To unify vision generation and understanding, a burgeoning trend is to adopt high-dimensional features from representation encoders as generative latents. However, we empirically identify two fundamental obstacles in this paradigm: (1) the discriminative feature space lacks compact regularization, making diffusion models prone to off-manifold latents that lead to inaccurate object structures; and (2) the encoder's inherently weak pixel-level reconstruction hinders the generator from learning accurate fine-grained geometry and texture. In this paper, we propose a systematic framework to adapt understanding-oriented encoder features for generative tasks. We introduce a semantic-pixel reconstruction objective to regularize the latent space, enabling the compression of both semantic information and fine-grained details into a highly compact representation (96 channels with 16x16 spatial downsampling). This design ensures that the latent space remains semantically rich and achieves state-of-the-art image reconstruction, while remaining compact enough for accurate generation. Leveraging this representation, we design a unified Text-to-Image (T2I) and image editing model. Benchmarking against various feature spaces, we demonstrate that our approach achieves state-of-the-art reconstruction, faster convergence, and substantial performance gains in both T2I and editing tasks, validating that representation encoders can be effectively adapted into robust generative components.
PDF292December 23, 2025