ChatPaper.aiChatPaper

Sia la Semantica che la Ricostruzione Contano: Rendere gli Encoder di Rappresentazione Pronti per la Generazione e l'Editing da Testo a Immagine

Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing

December 19, 2025
Autori: Shilong Zhang, He Zhang, Zhifei Zhang, Chongjian Ge, Shuchen Xue, Shaoteng Liu, Mengwei Ren, Soo Ye Kim, Yuqian Zhou, Qing Liu, Daniil Pakhomov, Kai Zhang, Zhe Lin, Ping Luo
cs.AI

Abstract

I moderni modelli di diffusione latente (LDM) operano tipicamente in spazi latenti di autoencoder variazionali (VAE) di basso livello, ottimizzati principalmente per la ricostruzione a livello di pixel. Per unificare generazione e comprensione visiva, una tendenza emergente è l'adozione di feature ad alta dimensionalità provenienti da encoder di rappresentazione come latenti generativi. Tuttavia, identifichiamo empiricamente due ostacoli fondamentali in questo paradigma: (1) lo spazio delle feature discriminative manca di regolarizzazione compatta, rendendo i modelli di diffusione inclini a latenti fuori varietà che portano a strutture oggettuali inaccurate; e (2) la ricostruzione a livello di pixel intrinsecamente debole dell'encoder ostacola l'apprendimento di geometria e texture granulari accurate da parte del generatore. In questo articolo, proponiamo un framework sistematico per adattare feature di encoder orientati alla comprensione per task generativi. Introduciamo un obiettivo di ricostruzione semantico-pixel per regolarizzare lo spazio latente, consentendo la compressione sia di informazioni semantiche che di dettagli granulari in una rappresentazione altamente compatta (96 canali con downsampling spaziale 16x16). Questo progetto garantisce che lo spazio latente rimanga semanticamente ricco e raggiunga una ricostruzione d'immagine allo stato dell'arte, pur restando abbastanza compatto per una generazione accurata. Sfruttando questa rappresentazione, progettiamo un modello unificato di Text-to-Image (T2I) e editing d'immagine. Confrontando vari spazi di feature, dimostriamo che il nostro approccio raggiunge una ricostruzione allo stato dell'arte, una convergenza più rapida e sostanziali miglioramenti prestazionali sia nei task T2I che di editing, convalidando che gli encoder di rappresentazione possono essere efficacemente adattati in componenti generative robuste.
English
Modern Latent Diffusion Models (LDMs) typically operate in low-level Variational Autoencoder (VAE) latent spaces that are primarily optimized for pixel-level reconstruction. To unify vision generation and understanding, a burgeoning trend is to adopt high-dimensional features from representation encoders as generative latents. However, we empirically identify two fundamental obstacles in this paradigm: (1) the discriminative feature space lacks compact regularization, making diffusion models prone to off-manifold latents that lead to inaccurate object structures; and (2) the encoder's inherently weak pixel-level reconstruction hinders the generator from learning accurate fine-grained geometry and texture. In this paper, we propose a systematic framework to adapt understanding-oriented encoder features for generative tasks. We introduce a semantic-pixel reconstruction objective to regularize the latent space, enabling the compression of both semantic information and fine-grained details into a highly compact representation (96 channels with 16x16 spatial downsampling). This design ensures that the latent space remains semantically rich and achieves state-of-the-art image reconstruction, while remaining compact enough for accurate generation. Leveraging this representation, we design a unified Text-to-Image (T2I) and image editing model. Benchmarking against various feature spaces, we demonstrate that our approach achieves state-of-the-art reconstruction, faster convergence, and substantial performance gains in both T2I and editing tasks, validating that representation encoders can be effectively adapted into robust generative components.
PDF292December 23, 2025