Uma Camada É Suficiente: Adaptando Codificadores Visuais Pré-treinados para Geração de Imagens

Resumo

Os modelos generativos visuais (por exemplo, modelos de difusão) geralmente operam em espaços latentes comprimidos para equilibrar a eficiência do treinamento e a qualidade da amostra. Paralelamente, tem havido um interesse crescente em aproveitar representações visuais pré-treinadas de alta qualidade, seja alinhando-as dentro de VAEs ou diretamente no modelo generativo. No entanto, adaptar tais representações permanece um desafio devido a incompatibilidades fundamentais entre características orientadas para a compreensão e espaços latentes adequados para geração. Os codificadores de representação beneficiam-se de latentes de alta dimensionalidade que capturam hipóteses diversificadas para regiões mascaradas, enquanto os modelos generativos favorecem latentes de baixa dimensionalidade que devem preservar fielmente o ruído injetado. Esta discrepância levou trabalhos anteriores a depender de objetivos e arquiteturas complexas. Neste trabalho, propomos o FAE (Feature Auto-Encoder), uma estrutura simples mas eficaz que adapta representações visuais pré-treinadas em latentes de baixa dimensionalidade adequados para geração usando apenas uma única camada de atenção, mantendo informações suficientes para reconstrução e compreensão. A chave é acoplar dois decodificadores profundos separados: um treinado para reconstruir o espaço de características original, e um segundo que toma as características reconstruídas como entrada para geração de imagens. O FAE é genérico; pode ser instanciado com vários codificadores auto-supervisionados (por exemplo, DINO, SigLIP) e conectado a duas famílias generativas distintas: modelos de difusão e fluxos normalizadores. Em benchmarks de classe condicional e texto-para-imagem, o FAE alcança um desempenho sólido. Por exemplo, no ImageNet 256x256, nosso modelo de difusão com CFG atinge um FID próximo ao estado da arte de 1.29 (800 épocas) e 1.70 (80 épocas). Sem CFG, o FAE atinge o estado da arte em FID de 1.48 (800 épocas) e 2.08 (80 épocas), demonstrando alta qualidade e aprendizado rápido.

English

Visual generative models (e.g., diffusion models) typically operate in compressed latent spaces to balance training efficiency and sample quality. In parallel, there has been growing interest in leveraging high-quality pre-trained visual representations, either by aligning them inside VAEs or directly within the generative model. However, adapting such representations remains challenging due to fundamental mismatches between understanding-oriented features and generation-friendly latent spaces. Representation encoders benefit from high-dimensional latents that capture diverse hypotheses for masked regions, whereas generative models favor low-dimensional latents that must faithfully preserve injected noise. This discrepancy has led prior work to rely on complex objectives and architectures. In this work, we propose FAE (Feature Auto-Encoder), a simple yet effective framework that adapts pre-trained visual representations into low-dimensional latents suitable for generation using as little as a single attention layer, while retaining sufficient information for both reconstruction and understanding. The key is to couple two separate deep decoders: one trained to reconstruct the original feature space, and a second that takes the reconstructed features as input for image generation. FAE is generic; it can be instantiated with a variety of self-supervised encoders (e.g., DINO, SigLIP) and plugged into two distinct generative families: diffusion models and normalizing flows. Across class-conditional and text-to-image benchmarks, FAE achieves strong performance. For example, on ImageNet 256x256, our diffusion model with CFG attains a near state-of-the-art FID of 1.29 (800 epochs) and 1.70 (80 epochs). Without CFG, FAE reaches the state-of-the-art FID of 1.48 (800 epochs) and 2.08 (80 epochs), demonstrating both high quality and fast learning.

Uma Camada É Suficiente: Adaptando Codificadores Visuais Pré-treinados para Geração de Imagens

One Layer Is Enough: Adapting Pretrained Visual Encoders for Image Generation

Resumo

Support