ChatPaper.aiChatPaper

Eine Schicht genügt: Angepasste vortrainierte visuelle Encoder für die Bildgenerierung

One Layer Is Enough: Adapting Pretrained Visual Encoders for Image Generation

December 8, 2025
papers.authors: Yuan Gao, Chen Chen, Tianrong Chen, Jiatao Gu
cs.AI

papers.abstract

Visuelle generative Modelle (z.B. Diffusionsmodelle) arbeiten typischerweise in komprimierten latenten Räumen, um Trainings-Effizienz und Probenqualität in Einklang zu bringen. Parallel dazu wächst das Interesse an der Nutzung hochwertiger, vortrainierter visueller Repräsentationen, entweder durch deren Ausrichtung innerhalb von VAEs oder direkt im generativen Modell. Die Anpassung solcher Repräsentationen bleibt jedoch aufgrund grundlegender Diskrepanzen zwischen verständnisorientierten Merkmalen und generierungsfreundlichen latenten Räumen eine Herausforderung. Repräsentations-Encoder profitieren von hochdimensionalen latenten Variablen, die diverse Hypothesen für maskierte Regionen erfassen, während generative Modelle niedrigdimensionale latente Variablen bevorzugen, die injiziertes Rauschen zuverlässig bewahren müssen. Diese Diskrepanz hat frühere Arbeiten dazu veranlasst, auf komplexe Zielfunktionen und Architekturen zurückzugreifen. In dieser Arbeit schlagen wir FAE (Feature Auto-Encoder) vor, ein einfaches, aber effektives Framework, das vortrainierte visuelle Repräsentationen unter Verwendung von nur einer einzigen Attention-Schicht in für die Generierung geeignete niedrigdimensionale latente Räume adaptiert und dabei ausreichend Information sowohl für Rekonstruktion als auch Verständnis bewahrt. Der Schlüssel liegt in der Kopplung zweier separater Deep Decoder: einer wird trainiert, um den ursprünglichen Merkmalsraum zu rekonstruieren, und ein zweiter nutzt die rekonstruierten Merkmale als Eingabe für die Bildgenerierung. FAE ist generisch; es kann mit verschiedenen selbstüberwachten Encodern (z.B. DINO, SigLIP) instanziiert und in zwei distincte generative Familien integriert werden: Diffusionsmodelle und Normalizing Flows. In Klassen-konditionalen und Text-zu-Bild Benchmarks erzielt FAE eine starke Performance. Auf ImageNet 256x256 erreicht unser Diffusionsmodell mit CFG einen nahezu state-of-the-art FID von 1.29 (800 Epochen) und 1.70 (80 Epochen). Ohne CFG erreicht FAE den state-of-the-art FID von 1.48 (800 Epochen) und 2.08 (80 Epochen), was sowohl hohe Qualität als auch schnelles Lernen demonstriert.
English
Visual generative models (e.g., diffusion models) typically operate in compressed latent spaces to balance training efficiency and sample quality. In parallel, there has been growing interest in leveraging high-quality pre-trained visual representations, either by aligning them inside VAEs or directly within the generative model. However, adapting such representations remains challenging due to fundamental mismatches between understanding-oriented features and generation-friendly latent spaces. Representation encoders benefit from high-dimensional latents that capture diverse hypotheses for masked regions, whereas generative models favor low-dimensional latents that must faithfully preserve injected noise. This discrepancy has led prior work to rely on complex objectives and architectures. In this work, we propose FAE (Feature Auto-Encoder), a simple yet effective framework that adapts pre-trained visual representations into low-dimensional latents suitable for generation using as little as a single attention layer, while retaining sufficient information for both reconstruction and understanding. The key is to couple two separate deep decoders: one trained to reconstruct the original feature space, and a second that takes the reconstructed features as input for image generation. FAE is generic; it can be instantiated with a variety of self-supervised encoders (e.g., DINO, SigLIP) and plugged into two distinct generative families: diffusion models and normalizing flows. Across class-conditional and text-to-image benchmarks, FAE achieves strong performance. For example, on ImageNet 256x256, our diffusion model with CFG attains a near state-of-the-art FID of 1.29 (800 epochs) and 1.70 (80 epochs). Without CFG, FAE reaches the state-of-the-art FID of 1.48 (800 epochs) and 2.08 (80 epochs), demonstrating both high quality and fast learning.
PDF42December 10, 2025