スペクトルマッチング:潜在拡散における優れた拡散性のための統一的視点
Spectrum Matching: a Unified Perspective for Superior Diffusability in Latent Diffusion
March 15, 2026
著者: Mang Ning, Mingxiao Li, Le Zhang, Lanmiao Liu, Matthew B. Blaschko, Albert Ali Salah, Itir Onal Ertugrul
cs.AI
要旨
本論文では、潜在拡散における変分自己符号化器(VAE)の拡散可能性(学習可能性)を研究する。まず、MSE目的関数で学習されたピクセル空間拡散が、低・中空間周波数の学習に対して本質的にバイアスを持つこと、そして自然画像のべき乗則パワースペクトル密度(PSD)がこのバイアスを知覚的に有益なものにしていることを示す。この結果に動機づけられ、我々はスペクトルマッチング仮説を提案する:優れた拡散可能性を持つ潜在表現は、(i) 平坦化されたべき乗則PSDに従うべき(符号化スペクトルマッチング、ESM)であり、(ii) デコーダを通じて周波数-周波数間の意味的対応を保存すべき(復号化スペクトルマッチング、DSM)である。実践的には、ESMを画像と潜在表現の間のPSDマッチングにより、DSMを周波数整合性再構成による共有スペクトルマスキングを通じて適用する。重要なことに、スペクトルマッチングは、過剰にノイジーまたは過剰に平滑化された潜在表現に関する従来の観察を明確化し、いくつかの最近の手法(例:VA-VAE, EQ-VAE)を特殊なケースとして解釈する統一的な視点を提供する。実験により、スペクトルマッチングがCelebAおよびImageNetデータセットにおいて優れた拡散生成を実現し、従来のアプローチを上回ることを示す。最後に、スペクトルの視点を表現アライメント(REPA)に拡張する:対象表現の方向的スペクトルエネルギーがREPAにとって重要であることを示し、REPAの性能をさらに向上させるためのDoGベースの手法を提案する。コードはhttps://github.com/forever208/SpectrumMatching で公開されている。
English
In this paper, we study the diffusability (learnability) of variational autoencoders (VAE) in latent diffusion. First, we show that pixel-space diffusion trained with an MSE objective is inherently biased toward learning low and mid spatial frequencies, and that the power-law power spectral density (PSD) of natural images makes this bias perceptually beneficial. Motivated by this result, we propose the Spectrum Matching Hypothesis: latents with superior diffusability should (i) follow a flattened power-law PSD (Encoding Spectrum Matching, ESM) and (ii) preserve frequency-to-frequency semantic correspondence through the decoder (Decoding Spectrum Matching, DSM). In practice, we apply ESM by matching the PSD between images and latents, and DSM via shared spectral masking with frequency-aligned reconstruction. Importantly, Spectrum Matching provides a unified view that clarifies prior observations of over-noisy or over-smoothed latents, and interprets several recent methods as special cases (e.g., VA-VAE, EQ-VAE). Experiments suggest that Spectrum Matching yields superior diffusion generation on CelebA and ImageNet datasets, and outperforms prior approaches. Finally, we extend the spectral view to representation alignment (REPA): we show that the directional spectral energy of the target representation is crucial for REPA, and propose a DoG-based method to further improve the performance of REPA. Our code is available https://github.com/forever208/SpectrumMatching.