ChatPaper.aiChatPaper

単層で十分:画像生成のための事前学習済み視覚エンコーダの適応

One Layer Is Enough: Adapting Pretrained Visual Encoders for Image Generation

December 8, 2025
著者: Yuan Gao, Chen Chen, Tianrong Chen, Jiatao Gu
cs.AI

要旨

視覚生成モデル(例えば拡散モデル)は通常、学習効率と生成品質のバランスを取るために圧縮された潜在空間で動作する。並行して、高品質な事前学習済み視覚表現を活用する関心が高まっており、VAE内で整合させるか、生成モデル内に直接組み込む方法が探られている。しかし、理解指向の特徴量と生成向きの潜在空間の根本的な不一致により、このような表現の適応は依然として困難である。表現エンコーダはマスク領域に対する多様な仮説を捉える高次元潜在空間から恩恵を受ける一方、生成モデルは注入されたノイズを忠実に保持しなければならない低次元潜在空間を好む。この不一致により、従来研究は複雑な目的関数とアーキテクチャに依存せざるを得なかった。本研究では、FAE(Feature Auto-Encoder)を提案する。これは事前学習済み視覚表現を、単一のアテンション層のみを使用して生成に適した低次元潜在表現に適応させる、簡潔かつ効果的なフレームワークでありながら、再構成と理解の両方に十分な情報を保持する。鍵となるのは、2つの独立した深層デコーダを結合する手法である:一方は元の特徴空間を再構成するように訓練され、もう一方は再構成された特徴量を入力として画像生成を行う。FAEは汎用的であり、様々な自己教師ありエンコーダ(DINO、SigLIPなど)で実体化でき、拡散モデルと正規化フローという2つの異なる生成モデルファミリーに組み込むことができる。クラス条件付きおよびテキストから画像へのベンチマークにおいて、FAEは強力な性能を発揮する。例えばImageNet 256x256では、CFGを適用した拡散モデルが1.29(800エポック)および1.70(80エポック)というほぼ最先端のFID値を達成した。CFGなしでは、FAEは1.48(800エポック)および2.08(80エポック)という最先端のFID値を達成し、高品質かつ高速な学習能力を実証した。
English
Visual generative models (e.g., diffusion models) typically operate in compressed latent spaces to balance training efficiency and sample quality. In parallel, there has been growing interest in leveraging high-quality pre-trained visual representations, either by aligning them inside VAEs or directly within the generative model. However, adapting such representations remains challenging due to fundamental mismatches between understanding-oriented features and generation-friendly latent spaces. Representation encoders benefit from high-dimensional latents that capture diverse hypotheses for masked regions, whereas generative models favor low-dimensional latents that must faithfully preserve injected noise. This discrepancy has led prior work to rely on complex objectives and architectures. In this work, we propose FAE (Feature Auto-Encoder), a simple yet effective framework that adapts pre-trained visual representations into low-dimensional latents suitable for generation using as little as a single attention layer, while retaining sufficient information for both reconstruction and understanding. The key is to couple two separate deep decoders: one trained to reconstruct the original feature space, and a second that takes the reconstructed features as input for image generation. FAE is generic; it can be instantiated with a variety of self-supervised encoders (e.g., DINO, SigLIP) and plugged into two distinct generative families: diffusion models and normalizing flows. Across class-conditional and text-to-image benchmarks, FAE achieves strong performance. For example, on ImageNet 256x256, our diffusion model with CFG attains a near state-of-the-art FID of 1.29 (800 epochs) and 1.70 (80 epochs). Without CFG, FAE reaches the state-of-the-art FID of 1.48 (800 epochs) and 2.08 (80 epochs), demonstrating both high quality and fast learning.
PDF42December 10, 2025