Abbinamento dello Spettro: una Prospettiva Unificata per una Superiore Diffusibilità nei Modelli di Diffusione Latente

Abstract

In questo articolo, studiamo la diffusabilità (apprendibilità) degli autoencoder variazionali (VAE) nella diffusione latente. In primo luogo, dimostriamo che la diffusione nello spazio dei pixel addestrata con un obiettivo MSE è intrinsecamente predisposta ad apprendere le frequenze spaziali basse e medie, e che la densità spettrale di potenza (PSD) a legge di potenza delle immagini naturali rende questa predisposizione percettivamente benefica. Motivati da questo risultato, proponiamo l'Ipotesi di Corrispondenza Spettrale: i latenti con una diffusabilità superiore dovrebbero (i) seguire una PSD a legge di potenza appiattita (Corrispondenza Spettrale di Codifica, ESM) e (ii) preservare la corrispondenza semantica frequenza-per-frequenza attraverso il decodificatore (Corrispondenza Spettrale di Decodifica, DSM). In pratica, applichiamo l'ESM facendo corrispondere la PSD tra immagini e latenti, e la DSM tramite mascheramento spettrale condiviso con ricostruzione allineata in frequenza. È importante notare che la Corrispondenza Spettrale fornisce una visione unificata che chiarisce le osservazioni precedenti sui latenti eccessivamente rumorosi o lisciati, e interpreta diversi metodi recenti come casi particolari (ad esempio, VA-VAE, EQ-VAE). Gli esperimenti suggeriscono che la Corrispondenza Spettrale produce una generazione per diffusione superiore sui dataset CelebA e ImageNet, e supera gli approcci precedenti. Infine, estendiamo la visione spettrale all'allineamento della rappresentazione (REPA): dimostriamo che l'energia spettrale direzionale della rappresentazione target è cruciale per il REPA, e proponiamo un metodo basato su DoG per migliorare ulteriormente le prestazioni del REPA. Il nostro codice è disponibile all'indirizzo https://github.com/forever208/SpectrumMatching.

English

In this paper, we study the diffusability (learnability) of variational autoencoders (VAE) in latent diffusion. First, we show that pixel-space diffusion trained with an MSE objective is inherently biased toward learning low and mid spatial frequencies, and that the power-law power spectral density (PSD) of natural images makes this bias perceptually beneficial. Motivated by this result, we propose the Spectrum Matching Hypothesis: latents with superior diffusability should (i) follow a flattened power-law PSD (Encoding Spectrum Matching, ESM) and (ii) preserve frequency-to-frequency semantic correspondence through the decoder (Decoding Spectrum Matching, DSM). In practice, we apply ESM by matching the PSD between images and latents, and DSM via shared spectral masking with frequency-aligned reconstruction. Importantly, Spectrum Matching provides a unified view that clarifies prior observations of over-noisy or over-smoothed latents, and interprets several recent methods as special cases (e.g., VA-VAE, EQ-VAE). Experiments suggest that Spectrum Matching yields superior diffusion generation on CelebA and ImageNet datasets, and outperforms prior approaches. Finally, we extend the spectral view to representation alignment (REPA): we show that the directional spectral energy of the target representation is crucial for REPA, and propose a DoG-based method to further improve the performance of REPA. Our code is available https://github.com/forever208/SpectrumMatching.

Abbinamento dello Spettro: una Prospettiva Unificata per una Superiore Diffusibilità nei Modelli di Diffusione Latente

Spectrum Matching: a Unified Perspective for Superior Diffusability in Latent Diffusion

Abstract

Support