Correspondência de Espectro: uma Perspectiva Unificada para Difusibilidade Superior em Modelos de Difusão Latente

Resumo

Neste artigo, estudamos a capacidade de difusão (aprendizagem) de autoencoders variacionais (VAE) na difusão latente. Primeiro, demonstramos que a difusão no espaço de pixels treinada com um objetivo de erro quadrático médio (MSE) é inerentemente tendenciosa para aprender frequências espaciais baixas e médias, e que a densidade espectral de potência (PSD) com lei de potência das imagens naturais torna esse viés perceptualmente benéfico. Motivados por este resultado, propomos a Hipótese de Correspondência Espectral: latentes com capacidade de difusão superior devem (i) seguir uma PSD com lei de potência achatada (Correspondência Espectral de Codificação, ESM) e (ii) preservar a correspondência semântica frequência a frequência através do decodificador (Correspondência Espectral de Decodificação, DSM). Na prática, aplicamos a ESM correspondendo a PSD entre imagens e latentes, e a DSM por meio de mascaramento espectral compartilhado com reconstrução alinhada em frequência. Importante, a Correspondência Espectral fornece uma visão unificada que esclarece observações prévias de latentes excessivamente ruidosos ou suavizados, e interpreta vários métodos recentes como casos especiais (por exemplo, VA-VAE, EQ-VAE). Experimentos sugerem que a Correspondência Espectral produz geração por difusão superior nos conjuntos de dados CelebA e ImageNet, e supera abordagens anteriores. Finalmente, estendemos a visão espectral para o alinhamento de representações (REPA): mostramos que a energia espectral direcional da representação alvo é crucial para o REPA, e propomos um método baseado em DoG para melhorar ainda mais o desempenho do REPA. Nosso código está disponível em https://github.com/forever208/SpectrumMatching.

English

In this paper, we study the diffusability (learnability) of variational autoencoders (VAE) in latent diffusion. First, we show that pixel-space diffusion trained with an MSE objective is inherently biased toward learning low and mid spatial frequencies, and that the power-law power spectral density (PSD) of natural images makes this bias perceptually beneficial. Motivated by this result, we propose the Spectrum Matching Hypothesis: latents with superior diffusability should (i) follow a flattened power-law PSD (Encoding Spectrum Matching, ESM) and (ii) preserve frequency-to-frequency semantic correspondence through the decoder (Decoding Spectrum Matching, DSM). In practice, we apply ESM by matching the PSD between images and latents, and DSM via shared spectral masking with frequency-aligned reconstruction. Importantly, Spectrum Matching provides a unified view that clarifies prior observations of over-noisy or over-smoothed latents, and interprets several recent methods as special cases (e.g., VA-VAE, EQ-VAE). Experiments suggest that Spectrum Matching yields superior diffusion generation on CelebA and ImageNet datasets, and outperforms prior approaches. Finally, we extend the spectral view to representation alignment (REPA): we show that the directional spectral energy of the target representation is crucial for REPA, and propose a DoG-based method to further improve the performance of REPA. Our code is available https://github.com/forever208/SpectrumMatching.

Correspondência de Espectro: uma Perspectiva Unificada para Difusibilidade Superior em Modelos de Difusão Latente

Spectrum Matching: a Unified Perspective for Superior Diffusability in Latent Diffusion

Resumo

Support