Emparejamiento de Espectros: Una Perspectiva Unificada para una Difusibilidad Superior en Difusión Latente

Resumen

En este artículo, estudiamos la capacidad de difusión (capacidad de aprendizaje) de los autoencoders variacionales (VAE) en la difusión latente. Primero, demostramos que la difusión en el espacio de píxeles entrenada con un objetivo de error cuadrático medio (MSE) está inherentemente sesgada hacia el aprendizaje de frecuencias espaciales bajas y medias, y que la densidad espectral de potencia (DEP) de ley de potencia de las imágenes naturales hace que este sesgo sea perceptualmente beneficioso. Motivados por este resultado, proponemos la Hipótesis de Correspondencia Espectral: los espacios latentes con una capacidad de difusión superior deben (i) seguir una DEP de ley de potencia aplanada (Correspondencia Espectral en la Codificación, ESM) y (ii) preservar la correspondencia semántica frecuencia-a-frecuencia a través del decodificador (Correspondencia Espectral en la Decodificación, DSM). En la práctica, aplicamos ESM haciendo coincidir la DEP entre las imágenes y los espacios latentes, y DSM mediante el uso compartido de enmascaramiento espectral con reconstrucción alineada en frecuencia. Es importante destacar que la Correspondencia Espectral proporciona una visión unificada que clarifica observaciones previas de espacios latentes excesivamente ruidosos o suavizados, e interpreta varios métodos recientes como casos especiales (por ejemplo, VA-VAE, EQ-VAE). Los experimentos sugieren que la Correspondencia Espectral produce una generación por difusión superior en los conjuntos de datos CelebA e ImageNet, y supera a enfoques anteriores. Finalmente, extendemos la perspectiva espectral a la alineación de representaciones (REPA): demostramos que la energía espectral direccional de la representación objetivo es crucial para REPA, y proponemos un método basado en DoG para mejorar aún más el rendimiento de REPA. Nuestro código está disponible en https://github.com/forever208/SpectrumMatching.

English

In this paper, we study the diffusability (learnability) of variational autoencoders (VAE) in latent diffusion. First, we show that pixel-space diffusion trained with an MSE objective is inherently biased toward learning low and mid spatial frequencies, and that the power-law power spectral density (PSD) of natural images makes this bias perceptually beneficial. Motivated by this result, we propose the Spectrum Matching Hypothesis: latents with superior diffusability should (i) follow a flattened power-law PSD (Encoding Spectrum Matching, ESM) and (ii) preserve frequency-to-frequency semantic correspondence through the decoder (Decoding Spectrum Matching, DSM). In practice, we apply ESM by matching the PSD between images and latents, and DSM via shared spectral masking with frequency-aligned reconstruction. Importantly, Spectrum Matching provides a unified view that clarifies prior observations of over-noisy or over-smoothed latents, and interprets several recent methods as special cases (e.g., VA-VAE, EQ-VAE). Experiments suggest that Spectrum Matching yields superior diffusion generation on CelebA and ImageNet datasets, and outperforms prior approaches. Finally, we extend the spectral view to representation alignment (REPA): we show that the directional spectral energy of the target representation is crucial for REPA, and propose a DoG-based method to further improve the performance of REPA. Our code is available https://github.com/forever208/SpectrumMatching.

Emparejamiento de Espectros: Una Perspectiva Unificada para una Difusibilidad Superior en Difusión Latente

Spectrum Matching: a Unified Perspective for Superior Diffusability in Latent Diffusion

Resumen

Support