ChatPaper.aiChatPaper

Une seule couche suffit : Adapter les encodeurs visuels pré-entraînés pour la génération d'images

One Layer Is Enough: Adapting Pretrained Visual Encoders for Image Generation

December 8, 2025
papers.authors: Yuan Gao, Chen Chen, Tianrong Chen, Jiatao Gu
cs.AI

papers.abstract

Les modèles génératifs visuels (par exemple, les modèles de diffusion) opèrent généralement dans des espaces latents compressés pour équilibrer l'efficacité de l'entraînement et la qualité des échantillons. Parallèlement, l'intérêt s'accroît pour l'exploitation de représentations visuelles pré-entraînées de haute qualité, soit en les alignant dans des VAE, soit directement au sein du modèle génératif. Cependant, l'adaptation de telles représentations reste difficile en raison d'incompatibilités fondamentales entre les caractéristiques orientées compréhension et les espaces latents adaptés à la génération. Les encodeurs de représentation bénéficient de latents de haute dimension qui capturent des hypothèses diverses pour les régions masquées, tandis que les modèles génératifs privilégient des latents de faible dimension qui doivent préserver fidèlement le bruit injecté. Cette divergence a conduit les travaux antérieurs à recourir à des objectifs et architectures complexes. Dans ce travail, nous proposons FAE (Feature Auto-Encoder), un cadre simple mais efficace qui adapte les représentations visuelles pré-entraînées en latents de faible dimension adaptés à la génération en utilisant seulement une couche d'attention, tout en conservant suffisamment d'informations pour la reconstruction et la compréhension. La clé est de coupler deux décodeurs profonds distincts : l'un entraîné à reconstruire l'espace de caractéristiques original, et un second qui prend les caractéristiques reconstruites en entrée pour la génération d'images. FAE est générique ; il peut être instancié avec divers encodeurs auto-supervisés (par exemple, DINO, SigLIP) et intégré à deux familles génératives distinctes : les modèles de diffusion et les flots de normalisation. Sur des benchmarks de génération conditionnée par classe et de texte-à-image, FAE obtient de solides performances. Par exemple, sur ImageNet 256x256, notre modèle de diffusion avec CFG atteint un FID quasi-state-of-the-art de 1,29 (800 époques) et 1,70 (80 époques). Sans CFG, FAE atteint le FID state-of-the-art de 1,48 (800 époques) et 2,08 (80 époques), démontrant à la fois une haute qualité et un apprentissage rapide.
English
Visual generative models (e.g., diffusion models) typically operate in compressed latent spaces to balance training efficiency and sample quality. In parallel, there has been growing interest in leveraging high-quality pre-trained visual representations, either by aligning them inside VAEs or directly within the generative model. However, adapting such representations remains challenging due to fundamental mismatches between understanding-oriented features and generation-friendly latent spaces. Representation encoders benefit from high-dimensional latents that capture diverse hypotheses for masked regions, whereas generative models favor low-dimensional latents that must faithfully preserve injected noise. This discrepancy has led prior work to rely on complex objectives and architectures. In this work, we propose FAE (Feature Auto-Encoder), a simple yet effective framework that adapts pre-trained visual representations into low-dimensional latents suitable for generation using as little as a single attention layer, while retaining sufficient information for both reconstruction and understanding. The key is to couple two separate deep decoders: one trained to reconstruct the original feature space, and a second that takes the reconstructed features as input for image generation. FAE is generic; it can be instantiated with a variety of self-supervised encoders (e.g., DINO, SigLIP) and plugged into two distinct generative families: diffusion models and normalizing flows. Across class-conditional and text-to-image benchmarks, FAE achieves strong performance. For example, on ImageNet 256x256, our diffusion model with CFG attains a near state-of-the-art FID of 1.29 (800 epochs) and 1.70 (80 epochs). Without CFG, FAE reaches the state-of-the-art FID of 1.48 (800 epochs) and 2.08 (80 epochs), demonstrating both high quality and fast learning.
PDF42December 10, 2025