ChatPaper.aiChatPaper

한 층으로 충분하다: 사전 학습된 시각 인코더를 이미지 생성에 적용하기

One Layer Is Enough: Adapting Pretrained Visual Encoders for Image Generation

December 8, 2025
저자: Yuan Gao, Chen Chen, Tianrong Chen, Jiatao Gu
cs.AI

초록

시각 생성 모델(예: 확산 모델)은 일반적으로 학습 효율성과 샘플 품질의 균형을 맞추기 위해 압축된 잠재 공간에서 동작합니다. 동시에, 고품질 사전 학습된 시각 표현을 VAE 내부에 정렬하거나 생성 모델 내에서 직접 활용하는 데 대한 관심이 높아지고 있습니다. 그러나 이해 지향적 특징과 생성 친화적 잠재 공간 간의 근본적인 불일치로 인해 이러한 표현을 적용하는 것은 여전히 어려운 과제로 남아 있습니다. 표현 인코더는 마스킹된 영역에 대한 다양한 가설을 포착하는 고차원 잠재 공간으로부터 이점을 얻는 반면, 생성 모델은 주입된 노이즈를 충실히 보존해야 하는 저차원 잠재 공간을 선호합니다. 이러한 차이로 인해 기존 연구들은 복잡한 목적 함수와 아키텍처에 의존해 왔습니다. 본 연구에서는 사전 학습된 시각 표현을 생성에 적합한 저차원 잠재 공간으로 단일 어텐션 계층만을 사용하여 적응시키면서도 재구성과 이해에 모두 충분한 정보를 보존하는 간단하면서 효과적인 프레임워크인 FAE(Feature Auto-Encoder)를 제안합니다. 핵심은 두 개의 별도 심층 디코더를 결합하는 것으로, 하나는 원본 특징 공간을 재구성하도록 학습되고, 두 번째는 재구성된 특징을 이미지 생성의 입력으로 사용합니다. FAE는 범용적으로, 다양한 자기 지도 인코더(예: DINO, SigLIP)로 구현될 수 있으며 두 가지 다른 생성 모델 패밀리(확산 모델과 정규화 흐름)에 연결될 수 있습니다. 클래스 조건부 및 텍스트-이미지 벤치마크에서 FAE는 강력한 성능을 달성합니다. 예를 들어, ImageNet 256x256에서 CFG를 사용한 우리의 확산 모델은 약 1.29(800 에포크) 및 1.70(80 에포크)의 거의 최첨단 FID를 달성했습니다. CFG 없이도 FAE는 1.48(800 에포크) 및 2.08(80 에포크)의 최첨단 FID에 도달하여 높은 품질과 빠른 학습 속도를 모두 입증했습니다.
English
Visual generative models (e.g., diffusion models) typically operate in compressed latent spaces to balance training efficiency and sample quality. In parallel, there has been growing interest in leveraging high-quality pre-trained visual representations, either by aligning them inside VAEs or directly within the generative model. However, adapting such representations remains challenging due to fundamental mismatches between understanding-oriented features and generation-friendly latent spaces. Representation encoders benefit from high-dimensional latents that capture diverse hypotheses for masked regions, whereas generative models favor low-dimensional latents that must faithfully preserve injected noise. This discrepancy has led prior work to rely on complex objectives and architectures. In this work, we propose FAE (Feature Auto-Encoder), a simple yet effective framework that adapts pre-trained visual representations into low-dimensional latents suitable for generation using as little as a single attention layer, while retaining sufficient information for both reconstruction and understanding. The key is to couple two separate deep decoders: one trained to reconstruct the original feature space, and a second that takes the reconstructed features as input for image generation. FAE is generic; it can be instantiated with a variety of self-supervised encoders (e.g., DINO, SigLIP) and plugged into two distinct generative families: diffusion models and normalizing flows. Across class-conditional and text-to-image benchmarks, FAE achieves strong performance. For example, on ImageNet 256x256, our diffusion model with CFG attains a near state-of-the-art FID of 1.29 (800 epochs) and 1.70 (80 epochs). Without CFG, FAE reaches the state-of-the-art FID of 1.48 (800 epochs) and 2.08 (80 epochs), demonstrating both high quality and fast learning.
PDF42December 10, 2025