ChatPaper.aiChatPaper

Una Capa es Suficiente: Adaptación de Codificadores Visuales Preentrenados para la Generación de Imágenes

One Layer Is Enough: Adapting Pretrained Visual Encoders for Image Generation

December 8, 2025
Autores: Yuan Gao, Chen Chen, Tianrong Chen, Jiatao Gu
cs.AI

Resumen

Los modelos generativos visuales (por ejemplo, los modelos de difusión) suelen operar en espacios latentes comprimidos para equilibrar la eficiencia del entrenamiento y la calidad de las muestras. Paralelamente, ha crecido el interés en aprovechar representaciones visuales preentrenadas de alta calidad, ya sea alineándolas dentro de VAEs o directamente dentro del modelo generativo. Sin embargo, adaptar dichas representaciones sigue siendo un desafío debido a desajustes fundamentales entre las características orientadas a la comprensión y los espacios latentes favorables para la generación. Los codificadores de representación se benefician de latentes de alta dimensión que capturan hipótesis diversas para regiones enmascaradas, mientras que los modelos generativos prefieren latentes de baja dimensión que deben preservar fielmente el ruido inyectado. Esta discrepancia ha llevado a trabajos previos a depender de objetivos y arquitecturas complejas. En este trabajo, proponemos FAE (Feature Auto-Encoder), un marco simple pero efectivo que adapta representaciones visuales preentrenadas en latentes de baja dimensión aptos para generación utilizando tan poco como una sola capa de atención, mientras retiene suficiente información tanto para la reconstrucción como para la comprensión. La clave es acoplar dos decodificadores profundos separados: uno entrenado para reconstruir el espacio de características original, y un segundo que toma las características reconstruidas como entrada para la generación de imágenes. FAE es genérico; puede instanciarse con una variedad de codificadores auto-supervisados (por ejemplo, DINO, SigLIP) y conectarse en dos familias generativas distintas: modelos de difusión y flujos normalizadores. En benchmarks de generación condicionada por clase y texto-a-imagen, FAE logra un rendimiento sólido. Por ejemplo, en ImageNet 256x256, nuestro modelo de difusión con CFG alcanza un FID cercano al estado del arte de 1.29 (800 épocas) y 1.70 (80 épocas). Sin CFG, FAE alcanza el estado del arte en FID de 1.48 (800 épocas) y 2.08 (80 épocas), demostrando tanto alta calidad como aprendizaje rápido.
English
Visual generative models (e.g., diffusion models) typically operate in compressed latent spaces to balance training efficiency and sample quality. In parallel, there has been growing interest in leveraging high-quality pre-trained visual representations, either by aligning them inside VAEs or directly within the generative model. However, adapting such representations remains challenging due to fundamental mismatches between understanding-oriented features and generation-friendly latent spaces. Representation encoders benefit from high-dimensional latents that capture diverse hypotheses for masked regions, whereas generative models favor low-dimensional latents that must faithfully preserve injected noise. This discrepancy has led prior work to rely on complex objectives and architectures. In this work, we propose FAE (Feature Auto-Encoder), a simple yet effective framework that adapts pre-trained visual representations into low-dimensional latents suitable for generation using as little as a single attention layer, while retaining sufficient information for both reconstruction and understanding. The key is to couple two separate deep decoders: one trained to reconstruct the original feature space, and a second that takes the reconstructed features as input for image generation. FAE is generic; it can be instantiated with a variety of self-supervised encoders (e.g., DINO, SigLIP) and plugged into two distinct generative families: diffusion models and normalizing flows. Across class-conditional and text-to-image benchmarks, FAE achieves strong performance. For example, on ImageNet 256x256, our diffusion model with CFG attains a near state-of-the-art FID of 1.29 (800 epochs) and 1.70 (80 epochs). Without CFG, FAE reaches the state-of-the-art FID of 1.48 (800 epochs) and 2.08 (80 epochs), demonstrating both high quality and fast learning.
PDF42December 10, 2025