Correspondance de spectre : une perspective unifiée pour une diffusabilité supérieure dans les modèles de diffusion latente

Résumé

Dans cet article, nous étudions la diffusabilité (capacité d'apprentissage) des autoencodeurs variationnels (VAE) dans le cadre de la diffusion latente. Premièrement, nous montrons que la diffusion dans l'espace des pixels entraînée avec une fonction de coût MSE est intrinsèquement biaisée vers l'apprentissage des fréquences spatiales basses et moyennes, et que la densité spectrale de puissance (DSP) en loi de puissance des images naturelles rend ce biais bénéfique d'un point de vue perceptuel. Motivés par ce résultat, nous proposons l'Hypothèse d'Appariement Spectral : les latences avec une diffusabilité supérieure devraient (i) suivre une DSP en loi de puissance aplatie (Appariement Spectral d'Encodage, ASE) et (ii) préserver la correspondance sémantique fréquence-à-fréquence à travers le décodeur (Appariement Spectral de Décodage, ASD). En pratique, nous appliquons l'ASE en appariant la DSP entre les images et les latences, et l'ASD via un masquage spectral partagé avec une reconstruction alignée en fréquence. De manière importante, l'Appariement Spectral offre une vue unifiée qui clarifie les observations antérieures de latences trop bruitées ou trop lissées, et interprète plusieurs méthodes récentes comme des cas particuliers (par exemple, VA-VAE, EQ-VAE). Les expériences suggèrent que l'Appariement Spectral permet une génération par diffusion supérieure sur les ensembles de données CelebA et ImageNet, et surpasse les approches antérieures. Enfin, nous étendons la vue spectrale à l'alignement de représentations (REPA) : nous montrons que l'énergie spectrale directionnelle de la représentation cible est cruciale pour REPA, et proposons une méthode basée sur DoG pour améliorer encore les performances de REPA. Notre code est disponible à l'adresse https://github.com/forever208/SpectrumMatching.

English

In this paper, we study the diffusability (learnability) of variational autoencoders (VAE) in latent diffusion. First, we show that pixel-space diffusion trained with an MSE objective is inherently biased toward learning low and mid spatial frequencies, and that the power-law power spectral density (PSD) of natural images makes this bias perceptually beneficial. Motivated by this result, we propose the Spectrum Matching Hypothesis: latents with superior diffusability should (i) follow a flattened power-law PSD (Encoding Spectrum Matching, ESM) and (ii) preserve frequency-to-frequency semantic correspondence through the decoder (Decoding Spectrum Matching, DSM). In practice, we apply ESM by matching the PSD between images and latents, and DSM via shared spectral masking with frequency-aligned reconstruction. Importantly, Spectrum Matching provides a unified view that clarifies prior observations of over-noisy or over-smoothed latents, and interprets several recent methods as special cases (e.g., VA-VAE, EQ-VAE). Experiments suggest that Spectrum Matching yields superior diffusion generation on CelebA and ImageNet datasets, and outperforms prior approaches. Finally, we extend the spectral view to representation alignment (REPA): we show that the directional spectral energy of the target representation is crucial for REPA, and propose a DoG-based method to further improve the performance of REPA. Our code is available https://github.com/forever208/SpectrumMatching.

Correspondance de spectre : une perspective unifiée pour une diffusabilité supérieure dans les modèles de diffusion latente

Spectrum Matching: a Unified Perspective for Superior Diffusability in Latent Diffusion

Résumé

Support