Eén Laag Is Genoeg: Het Aanpassen van Vooraf Getrainde Visuele Encoders voor Beeldgeneratie
One Layer Is Enough: Adapting Pretrained Visual Encoders for Image Generation
December 8, 2025
Auteurs: Yuan Gao, Chen Chen, Tianrong Chen, Jiatao Gu
cs.AI
Samenvatting
Visuele generatieve modellen (zoals diffusiemodellen) werken doorgaans in gecomprimeerde latente ruimtes om een balans te vinden tussen trainings efficiëntie en samplekwaliteit. Tegelijkertijd is er een groeiende interesse in het benutten van hoogwaardige voorgetrainde visuele representaties, hetzij door ze af te stemmen binnen VAEs of direct binnen het generatieve model. Het aanpassen van dergelijke representaties blijft echter een uitdaging vanwege fundamentele verschillen tussen op begrip gerichte kenmerken en generatievriendelijke latente ruimtes. Representatie-encoders hebben baat bij hoogdimensionale latente representaties die diverse hypothesen voor gemaskeerde regio's vastleggen, terwijl generatieve modellen de voorkeur geven aan laagdimensionale latente representaties die geïnjecteerde ruis trouw moeten bewaren. Deze discrepantie heeft eerder werk ertoe gebracht te vertrouwen op complexe doelen en architecturen. In dit werk stellen we FAE (Feature Auto-Encoder) voor, een eenvoudig maar effectief raamwerk dat voorgetrainde visuele representaties aanpast naar laagdimensionale latente representaties die geschikt zijn voor generatie, met gebruik van slechts een enkele aandachtlaag, terwijl voldoende informatie behouden blijft voor zowel reconstructie als begrip. De sleutel is het koppelen van twee afzonderlijke deep decoders: één getraind om de oorspronkelijke kenmerkruimte te reconstrueren, en een tweede die de gereconstrueerde kenmerken als invoer neemt voor beeldgeneratie. FAE is generiek; het kan worden geïnstantieerd met diverse zelf-gesuperviseerde encoders (zoals DINO, SigLIP) en worden aangesloten op twee verschillende generatieve families: diffusiemodellen en normaliserende flows. Over klasse-voorwaardelijke en tekst-naar-beeld benchmarks heen behaalt FAE sterke prestaties. Op ImageNet 256x256 bereikt ons diffusiemodel met CFG bijvoorbeeld een bijna state-of-the-art FID van 1.29 (800 epochs) en 1.70 (80 epochs). Zonder CFG bereikt FAE de state-of-the-art FID van 1.48 (800 epochs) en 2.08 (80 epochs), wat zowel hoge kwaliteit als snel leren aantoont.
English
Visual generative models (e.g., diffusion models) typically operate in compressed latent spaces to balance training efficiency and sample quality. In parallel, there has been growing interest in leveraging high-quality pre-trained visual representations, either by aligning them inside VAEs or directly within the generative model. However, adapting such representations remains challenging due to fundamental mismatches between understanding-oriented features and generation-friendly latent spaces. Representation encoders benefit from high-dimensional latents that capture diverse hypotheses for masked regions, whereas generative models favor low-dimensional latents that must faithfully preserve injected noise. This discrepancy has led prior work to rely on complex objectives and architectures. In this work, we propose FAE (Feature Auto-Encoder), a simple yet effective framework that adapts pre-trained visual representations into low-dimensional latents suitable for generation using as little as a single attention layer, while retaining sufficient information for both reconstruction and understanding. The key is to couple two separate deep decoders: one trained to reconstruct the original feature space, and a second that takes the reconstructed features as input for image generation. FAE is generic; it can be instantiated with a variety of self-supervised encoders (e.g., DINO, SigLIP) and plugged into two distinct generative families: diffusion models and normalizing flows. Across class-conditional and text-to-image benchmarks, FAE achieves strong performance. For example, on ImageNet 256x256, our diffusion model with CFG attains a near state-of-the-art FID of 1.29 (800 epochs) and 1.70 (80 epochs). Without CFG, FAE reaches the state-of-the-art FID of 1.48 (800 epochs) and 2.08 (80 epochs), demonstrating both high quality and fast learning.