스펙트럼 매칭: 잠재 확산 모델의 향상된 확산성을 위한 통합적 관점
Spectrum Matching: a Unified Perspective for Superior Diffusability in Latent Diffusion
March 15, 2026
저자: Mang Ning, Mingxiao Li, Le Zhang, Lanmiao Liu, Matthew B. Blaschko, Albert Ali Salah, Itir Onal Ertugrul
cs.AI
초록
본 논문에서는 잠재 확산(latent diffusion)에서 변분 자동인코더(VAE)의 확산 가능성(학습 가능성)을 연구합니다. 먼저, MSE 목적함수로 학습된 픽셀 공간 확산이 본질적으로 저주파 및 중주파 공간 주파수를 학습하는 데 편향되어 있음을 보이고, 자연 이미지의 멱법칙 파워 스펙트럼 밀도(PSD)가 이러한 편향을 지각적으로 유리하게 만든다는 점을 확인합니다. 이 결과에 기반하여 우리는 스펙트럼 정합 가설(Spectrum Matching Hypothesis)을 제안합니다: 우수한 확산 가능성을 지닌 잠재 변수는 (i) 평평화된 멱법칙 PSD를 따라야 하며(인코딩 스펙트럼 정합, ESM), (ii) 디코더를 통한 주파수 대 주파수 의미론적 대응 관계를 보존해야 합니다(디코딩 스펙트럼 정합, DSM). 실제로 우리는 이미지와 잠재 변수 간의 PSD를 정합하여 ESM을 적용하고, 주파수 정렬 복구와 공유 스펙트럼 마스킹을 통해 DSM을 구현합니다. 중요한 점은, 스펙트럼 정합이 지나치게 노이즈가 많거나 과도하게 평활화된 잠재 변수에 대한 기존 관찰을 명확히 설명하고, 여러 최신 방법들(예: VA-VAE, EQ-VAE)을 특수한 경우로 해석하는 통합된 관점을 제공한다는 것입니다. 실험 결과, 스펙트럼 정합이 CelebA 및 ImageNet 데이터셋에서 우수한 확산 생성 성능을 보이며 기존 접근법들을 능가함을 확인했습니다. 마지막으로, 우리는 이 스펙트럼 관점을 표현 정렬(REPA)로 확장합니다: 목표 표현의 방향성 스펙트럼 에너지가 REPA에 중요함을 보이고, REPA의 성능을 더욱 향상시키기 위한 DoG 기반 방법을 제안합니다. 우리의 코드는 https://github.com/forever208/SpectrumMatching 에서 이용할 수 있습니다.
English
In this paper, we study the diffusability (learnability) of variational autoencoders (VAE) in latent diffusion. First, we show that pixel-space diffusion trained with an MSE objective is inherently biased toward learning low and mid spatial frequencies, and that the power-law power spectral density (PSD) of natural images makes this bias perceptually beneficial. Motivated by this result, we propose the Spectrum Matching Hypothesis: latents with superior diffusability should (i) follow a flattened power-law PSD (Encoding Spectrum Matching, ESM) and (ii) preserve frequency-to-frequency semantic correspondence through the decoder (Decoding Spectrum Matching, DSM). In practice, we apply ESM by matching the PSD between images and latents, and DSM via shared spectral masking with frequency-aligned reconstruction. Importantly, Spectrum Matching provides a unified view that clarifies prior observations of over-noisy or over-smoothed latents, and interprets several recent methods as special cases (e.g., VA-VAE, EQ-VAE). Experiments suggest that Spectrum Matching yields superior diffusion generation on CelebA and ImageNet datasets, and outperforms prior approaches. Finally, we extend the spectral view to representation alignment (REPA): we show that the directional spectral energy of the target representation is crucial for REPA, and propose a DoG-based method to further improve the performance of REPA. Our code is available https://github.com/forever208/SpectrumMatching.