Spektrum-Matching: Eine einheitliche Perspektive für überlegene Diffundierbarkeit in latenten Diffusionsmodellen

Zusammenfassung

In dieser Arbeit untersuchen wir die Diffundierbarkeit (Lernfähigkeit) von variationalen Autoencodern (VAE) bei latenter Diffusion. Zunächst zeigen wir, dass Diffusion im Pixelraum, die mit einem MSE-Ziel trainiert wird, inhärent darauf ausgelegt ist, niedrige und mittlere räumliche Frequenzen zu lernen, und dass die Power-Law-Leistungsspektraldichte (PSD) natürlicher Bilder diesen Bias wahrnehmungsmäßig vorteilhaft macht. Motiviert durch dieses Ergebnis schlagen wir die Spektrum-Anpassungs-Hypothese vor: Latente Repräsentationen mit überlegener Diffundierbarkeit sollten (i) einer abgeflachten Power-Law-PSD folgen (Encoding Spectrum Matching, ESM) und (ii) die semantische Frequenz-zu-Frequenz-Korrespondenz durch den Decoder erhalten (Decoding Spectrum Matching, DSM). In der Praxis wenden wir ESM an, indem wir die PSD zwischen Bildern und latenten Repräsentationen angleichen, und DSM durch gemeinsame spektrale Maskierung mit frequenzabgestimmter Rekonstruktion. Wichtig ist, dass die Spektrum-Anpassung eine einheitliche Sichtweise bietet, die frühere Beobachtungen von übermäßig verrauschten oder übermäßig geglätteten latenten Repräsentationen klärt und mehrere neuere Methoden (z.B. VA-VAE, EQ-VAE) als Spezialfälle interpretiert. Experimente deuten darauf hin, dass die Spektrum-Anpassung eine überlegene Diffusionsgenerierung auf den CelebA- und ImageNet-Datensätzen liefert und bisherige Ansätze übertrifft. Abschließend erweitern wir die spektrale Sichtweise auf die Repräsentationsausrichtung (REPA): Wir zeigen, dass die gerichtete spektrale Energie der Zielrepräsentation entscheidend für REPA ist, und schlagen eine auf DoG basierende Methode vor, um die Leistung von REPA weiter zu verbessern. Unser Code ist verfügbar unter https://github.com/forever208/SpectrumMatching.

English

In this paper, we study the diffusability (learnability) of variational autoencoders (VAE) in latent diffusion. First, we show that pixel-space diffusion trained with an MSE objective is inherently biased toward learning low and mid spatial frequencies, and that the power-law power spectral density (PSD) of natural images makes this bias perceptually beneficial. Motivated by this result, we propose the Spectrum Matching Hypothesis: latents with superior diffusability should (i) follow a flattened power-law PSD (Encoding Spectrum Matching, ESM) and (ii) preserve frequency-to-frequency semantic correspondence through the decoder (Decoding Spectrum Matching, DSM). In practice, we apply ESM by matching the PSD between images and latents, and DSM via shared spectral masking with frequency-aligned reconstruction. Importantly, Spectrum Matching provides a unified view that clarifies prior observations of over-noisy or over-smoothed latents, and interprets several recent methods as special cases (e.g., VA-VAE, EQ-VAE). Experiments suggest that Spectrum Matching yields superior diffusion generation on CelebA and ImageNet datasets, and outperforms prior approaches. Finally, we extend the spectral view to representation alignment (REPA): we show that the directional spectral energy of the target representation is crucial for REPA, and propose a DoG-based method to further improve the performance of REPA. Our code is available https://github.com/forever208/SpectrumMatching.

Spektrum-Matching: Eine einheitliche Perspektive für überlegene Diffundierbarkeit in latenten Diffusionsmodellen

Spectrum Matching: a Unified Perspective for Superior Diffusability in Latent Diffusion

Zusammenfassung

Support