ChatPaper.aiChatPaper

Un Solo Strato Basta: Adattamento di Encoder Visivi Pre-addestrati per la Generazione di Immagini

One Layer Is Enough: Adapting Pretrained Visual Encoders for Image Generation

December 8, 2025
Autori: Yuan Gao, Chen Chen, Tianrong Chen, Jiatao Gu
cs.AI

Abstract

I modelli generativi visivi (ad esempio, i modelli di diffusione) operano tipicamente in spazi latenti compressi per bilanciare efficienza addestrativa e qualità del campione. Parallelamente, è cresciuto l'interesse nello sfruttare rappresentazioni visive pre-addestrate di alta qualità, allineandole all'interno di VAE o direttamente nel modello generativo. Tuttavia, l'adattamento di tali rappresentazioni rimane complesso a causa di una discrepanza fondamentale tra feature orientate alla comprensione e spazi latenti adatti alla generazione. Gli encoder di rappresentazione beneficiano di latenti ad alta dimensionalità che catturano ipotesi diverse per regioni mascherate, mentre i modelli generativi preferiscono latenti a bassa dimensionalità che devono preservare fedelmente il rumore iniettato. Questa divergenza ha portato i lavori precedenti a fare affidamento su obiettivi e architetture complessi. In questo lavoro, proponiamo FAE (Feature Auto-Encoder), un framework semplice ma efficace che adatta rappresentazioni visive pre-addestrate in latenti a bassa dimensionalità adatti alla generazione, utilizzando anche un solo layer di attenzione, pur conservando informazioni sufficienti sia per la ricostruzione che per la comprensione. La chiave è l'accoppiamento di due decoder separati: uno addestrato a ricostruire lo spazio di feature originale, e un secondo che prende le feature ricostruite come input per la generazione di immagini. FAE è generico; può essere istanziato con vari encoder auto-supervisionati (ad esempio, DINO, SigLIP) e integrato in due distinte famiglie generative: modelli di diffusione e flussi normalizzanti. Su benchmark di generazione condizionata a classe e testo-immagine, FAE raggiunge prestazioni solide. Ad esempio, su ImageNet 256x256, il nostro modello di diffusione con CFG raggiunge un FID quasi state-of-the-art di 1.29 (800 epoche) e 1.70 (80 epoche). Senza CFG, FAE raggiunge lo state-of-the-art con FID di 1.48 (800 epoche) e 2.08 (80 epoche), dimostrando sia alta qualità che apprendimento rapido.
English
Visual generative models (e.g., diffusion models) typically operate in compressed latent spaces to balance training efficiency and sample quality. In parallel, there has been growing interest in leveraging high-quality pre-trained visual representations, either by aligning them inside VAEs or directly within the generative model. However, adapting such representations remains challenging due to fundamental mismatches between understanding-oriented features and generation-friendly latent spaces. Representation encoders benefit from high-dimensional latents that capture diverse hypotheses for masked regions, whereas generative models favor low-dimensional latents that must faithfully preserve injected noise. This discrepancy has led prior work to rely on complex objectives and architectures. In this work, we propose FAE (Feature Auto-Encoder), a simple yet effective framework that adapts pre-trained visual representations into low-dimensional latents suitable for generation using as little as a single attention layer, while retaining sufficient information for both reconstruction and understanding. The key is to couple two separate deep decoders: one trained to reconstruct the original feature space, and a second that takes the reconstructed features as input for image generation. FAE is generic; it can be instantiated with a variety of self-supervised encoders (e.g., DINO, SigLIP) and plugged into two distinct generative families: diffusion models and normalizing flows. Across class-conditional and text-to-image benchmarks, FAE achieves strong performance. For example, on ImageNet 256x256, our diffusion model with CFG attains a near state-of-the-art FID of 1.29 (800 epochs) and 1.70 (80 epochs). Without CFG, FAE reaches the state-of-the-art FID of 1.48 (800 epochs) and 2.08 (80 epochs), demonstrating both high quality and fast learning.
PDF42December 10, 2025