Сопоставление спектров: унифицированный подход к повышению диффузионной способности в латентных диффузионных моделях

Аннотация

В данной работе мы исследуем диффузионную способность (обучаемость) вариационных автоэнкодеров (VAE) в латентной диффузии. Во-первых, мы показываем, что диффузия в пиксельном пространстве, обученная с MSE-функцией потерь, имеет врожденное смещение в сторону изучения низких и средних пространственных частот, и что степенной закон спектральной плотности мощности (СПМ) натуральных изображений делает это смещение перцептивно выгодным. Мотивированные этим результатом, мы предлагаем Гипотезу Согласования Спектра: латентные переменные с превосходной диффузионной способностью должны (i) следовать сглаженному степенному закону СПМ (Согласование Спектра Кодирования, ESM) и (ii) сохранять семантическое соответствие "частота-к-частоте" через декодер (Согласование Спектра Декодирования, DSM). На практике мы применяем ESM путем согласования СПМ между изображениями и латентными переменными, а DSM — через разделяемое спектральное маскирование с реконструкцией, выровненной по частотам. Важно, что Согласование Спектра дает единую картину, которая проясняет предыдущие наблюдения за излишне зашумленными или излишне сглаженными латентными переменными и интерпретирует несколько недавних методов как частные случаи (например, VA-VAE, EQ-VAE). Эксперименты показывают, что Согласование Спектра обеспечивает превосходное качество генерации методом диффузии на наборах данных CelebA и ImageNet и превосходит предыдущие подходы. Наконец, мы расширяем спектральный взгляд на выравнивание представлений (REPA): мы показываем, что направленная спектральная энергия целевого представления критически важна для REPA, и предлагаем метод на основе DoG для дальнейшего улучшения производительности REPA. Наш код доступен по адресу https://github.com/forever208/SpectrumMatching.

English

In this paper, we study the diffusability (learnability) of variational autoencoders (VAE) in latent diffusion. First, we show that pixel-space diffusion trained with an MSE objective is inherently biased toward learning low and mid spatial frequencies, and that the power-law power spectral density (PSD) of natural images makes this bias perceptually beneficial. Motivated by this result, we propose the Spectrum Matching Hypothesis: latents with superior diffusability should (i) follow a flattened power-law PSD (Encoding Spectrum Matching, ESM) and (ii) preserve frequency-to-frequency semantic correspondence through the decoder (Decoding Spectrum Matching, DSM). In practice, we apply ESM by matching the PSD between images and latents, and DSM via shared spectral masking with frequency-aligned reconstruction. Importantly, Spectrum Matching provides a unified view that clarifies prior observations of over-noisy or over-smoothed latents, and interprets several recent methods as special cases (e.g., VA-VAE, EQ-VAE). Experiments suggest that Spectrum Matching yields superior diffusion generation on CelebA and ImageNet datasets, and outperforms prior approaches. Finally, we extend the spectral view to representation alignment (REPA): we show that the directional spectral energy of the target representation is crucial for REPA, and propose a DoG-based method to further improve the performance of REPA. Our code is available https://github.com/forever208/SpectrumMatching.

Сопоставление спектров: унифицированный подход к повышению диффузионной способности в латентных диффузионных моделях

Spectrum Matching: a Unified Perspective for Superior Diffusability in Latent Diffusion

Аннотация

Support