意味論と再構成の両方が重要:表現エンコーダをテキストから画像への生成と編集に対応させる
Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing
December 19, 2025
著者: Shilong Zhang, He Zhang, Zhifei Zhang, Chongjian Ge, Shuchen Xue, Shaoteng Liu, Mengwei Ren, Soo Ye Kim, Yuqian Zhou, Qing Liu, Daniil Pakhomov, Kai Zhang, Zhe Lin, Ping Luo
cs.AI
要旨
現代的な潜在拡散モデル(LDM)は、通常、画素レベルの再構成に最適化された低次元のVAE潜在空間で動作する。視覚生成と理解を統合するため、表現エンコーダから得られる高次元特徴を生成潜在変数として採用する新たな潮流が生まれつつある。しかし我々は、このパラダイムに二つの根本的課題を実証的に見出した:(1)識別的特徴空間はコンパクトな正則化を欠いており、拡散モデルが多様体から外れた潜在変数を生成し、不正確なオブジェクト構造を引き起こす傾向がある;(2)エンコーダの本質的に弱い画素レベル再構成能力が、生成器の精密な幾何学構造とテクスチャの学習を妨げる。本論文では、理解志向のエンコーダ特徴を生成タスクに適応させる体系的なフレームワークを提案する。意味的・画素的重構成目標を導入して潜在空間を正則化し、意味情報と微細な詳細の両方を高密度に圧縮した表現(16×16空間ダウンサンプリング・96チャネル)を実現する。この設計により、潜在空間は意味的に豊かでありながら最先端の画像再構成を達成し、正確な生成に十分なコンパクト性を維持する。この表現を活用し、テキスト画像生成(T2I)と画像編集を統合したモデルを設計する。各種特徴空間との比較評価により、本手法が最先端の再構成性能、高速な収束、T2Iおよび編集タスクにおける大幅な性能向上を達成することを実証し、表現エンコーダが頑健な生成コンポーネントへ効果的に転用可能であることを立証する。
English
Modern Latent Diffusion Models (LDMs) typically operate in low-level Variational Autoencoder (VAE) latent spaces that are primarily optimized for pixel-level reconstruction. To unify vision generation and understanding, a burgeoning trend is to adopt high-dimensional features from representation encoders as generative latents. However, we empirically identify two fundamental obstacles in this paradigm: (1) the discriminative feature space lacks compact regularization, making diffusion models prone to off-manifold latents that lead to inaccurate object structures; and (2) the encoder's inherently weak pixel-level reconstruction hinders the generator from learning accurate fine-grained geometry and texture. In this paper, we propose a systematic framework to adapt understanding-oriented encoder features for generative tasks. We introduce a semantic-pixel reconstruction objective to regularize the latent space, enabling the compression of both semantic information and fine-grained details into a highly compact representation (96 channels with 16x16 spatial downsampling). This design ensures that the latent space remains semantically rich and achieves state-of-the-art image reconstruction, while remaining compact enough for accurate generation. Leveraging this representation, we design a unified Text-to-Image (T2I) and image editing model. Benchmarking against various feature spaces, we demonstrate that our approach achieves state-of-the-art reconstruction, faster convergence, and substantial performance gains in both T2I and editing tasks, validating that representation encoders can be effectively adapted into robust generative components.