ChatPaper.aiChatPaper

Одного слоя достаточно: адаптация предобученных визуальных энкодеров для генерации изображений

One Layer Is Enough: Adapting Pretrained Visual Encoders for Image Generation

December 8, 2025
Авторы: Yuan Gao, Chen Chen, Tianrong Chen, Jiatao Gu
cs.AI

Аннотация

Визуальные генеративные модели (например, диффузионные модели) обычно работают в сжатых латентных пространствах для балансировки эффективности обучения и качества сэмплов. Параллельно растет интерес к использованию высококачественных предобученных визуальных представлений, либо путем их выравнивания внутри VAEs, либо непосредственно в генеративной модели. Однако адаптация таких представлений остается сложной задачей из-за фундаментального несоответствия между ориентированными на понимание признаками и генеративно-дружественными латентными пространствами. Кодировщики представлений выигрывают от высокоразмерных латентных переменных, которые захватывают разнообразные гипотезы для замаскированных областей, тогда как генеративные модели предпочитают низкоразмерные латентные переменные, которые должны достоверно сохранять вносимый шум. Это несоответствие привело к тому, что предыдущие работы полагались на сложные функции потерь и архитектуры. В данной работе мы предлагаем FAE (Feature Auto-Encoder), простую, но эффективную структуру, которая адаптирует предобученные визуальные представления в низкоразмерные латентные переменные, пригодные для генерации, используя всего один слой внимания, при этом сохраняя достаточную информацию как для реконструкции, так и для понимания. Ключевая идея заключается в соединении двух отдельных глубоких декодеров: один обучен реконструировать исходное пространство признаков, а второй принимает реконструированные признаки в качестве входных данных для генерации изображений. FAE является универсальной; она может быть реализована с помощью различных самоконтролируемых кодировщиков (например, DINO, SigLIP) и подключена к двум различным семействам генеративных моделей: диффузионным моделям и нормализующим потокам. На бенчмарках с условиями по классам и для текстового описания в изображение FAE демонстрирует высокую производительность. Например, на ImageNet 256x256 наша диффузионная модель с CFG достигает почти наилучшего показателя FID, равного 1.29 (800 эпох) и 1.70 (80 эпох). Без CFG FAE достигает наилучшего показателя FID, равного 1.48 (800 эпох) и 2.08 (80 эпох), демонстрируя как высокое качество, так и быстрое обучение.
English
Visual generative models (e.g., diffusion models) typically operate in compressed latent spaces to balance training efficiency and sample quality. In parallel, there has been growing interest in leveraging high-quality pre-trained visual representations, either by aligning them inside VAEs or directly within the generative model. However, adapting such representations remains challenging due to fundamental mismatches between understanding-oriented features and generation-friendly latent spaces. Representation encoders benefit from high-dimensional latents that capture diverse hypotheses for masked regions, whereas generative models favor low-dimensional latents that must faithfully preserve injected noise. This discrepancy has led prior work to rely on complex objectives and architectures. In this work, we propose FAE (Feature Auto-Encoder), a simple yet effective framework that adapts pre-trained visual representations into low-dimensional latents suitable for generation using as little as a single attention layer, while retaining sufficient information for both reconstruction and understanding. The key is to couple two separate deep decoders: one trained to reconstruct the original feature space, and a second that takes the reconstructed features as input for image generation. FAE is generic; it can be instantiated with a variety of self-supervised encoders (e.g., DINO, SigLIP) and plugged into two distinct generative families: diffusion models and normalizing flows. Across class-conditional and text-to-image benchmarks, FAE achieves strong performance. For example, on ImageNet 256x256, our diffusion model with CFG attains a near state-of-the-art FID of 1.29 (800 epochs) and 1.70 (80 epochs). Without CFG, FAE reaches the state-of-the-art FID of 1.48 (800 epochs) and 2.08 (80 epochs), demonstrating both high quality and fast learning.
PDF42December 10, 2025