이미지 확산 모델에서의 지역성은 데이터 통계에서 나타난다
Locality in Image Diffusion Models Emerges from Data Statistics
September 11, 2025
저자: Artem Lukoianov, Chenyang Yuan, Justin Solomon, Vincent Sitzmann
cs.AI
초록
생성 모델 중에서도 확산 모델(diffusion model)은 그 훈련 목적 함수의 폐쇄형 최적 최소화 도구, 즉 최적 제노이저(optimal denoiser)의 존재로 인해 특히 흥미롭습니다. 그러나 이 최적 제노이저를 사용한 확산은 단순히 훈련 데이터셋의 이미지를 재현할 뿐이며, 따라서 심층 확산 모델의 동작을 포착하지 못합니다. 최근 연구들은 이 최적 제노이저와 심층 확산 모델 간의 차이를 규명하려는 시도를 하며, 훈련된 UNet이 생성하는 이미지와 유사한 이미지를 생성할 수 있는 분석적이고 훈련이 필요 없는 모델을 제안했습니다. 가장 성능이 뛰어난 방법은 합성곱 신경망(CNN)의 이동 등변성(shift equivariance)과 지역성 귀납 편향(locality inductive bias)이 이러한 성능 차이의 원인이라고 가정하고, 이러한 가정을 분석적 모델에 통합했습니다. 본 연구에서는 심층 확산 모델의 지역성이 합성곱 신경망의 귀납 편향이 아니라 이미지 데이터셋의 통계적 특성으로부터 발생한다는 증거를 제시합니다. 구체적으로, 최적의 매개변수 선형 제노이저가 심층 신경 제노이저와 유사한 지역성 특성을 보인다는 것을 입증합니다. 또한, 이론적 및 실험적으로 이러한 지역성이 자연 이미지 데이터셋에 존재하는 픽셀 간 상관관계에서 직접적으로 발생한다는 것을 보여줍니다. 마지막으로, 이러한 통찰을 바탕으로 심층 확산 모델이 예측한 점수와 더 잘 일치하는 분석적 제노이저를 설계하여, 이전의 전문가가 설계한 대안보다 더 나은 성능을 달성했습니다.
English
Among generative models, diffusion models are uniquely intriguing due to the
existence of a closed-form optimal minimizer of their training objective, often
referred to as the optimal denoiser. However, diffusion using this optimal
denoiser merely reproduces images in the training set and hence fails to
capture the behavior of deep diffusion models. Recent work has attempted to
characterize this gap between the optimal denoiser and deep diffusion models,
proposing analytical, training-free models that can generate images that
resemble those generated by a trained UNet. The best-performing method
hypothesizes that shift equivariance and locality inductive biases of
convolutional neural networks are the cause of the performance gap, hence
incorporating these assumptions into its analytical model. In this work, we
present evidence that the locality in deep diffusion models emerges as a
statistical property of the image dataset, not due to the inductive bias of
convolutional neural networks. Specifically, we demonstrate that an optimal
parametric linear denoiser exhibits similar locality properties to the deep
neural denoisers. We further show, both theoretically and experimentally, that
this locality arises directly from the pixel correlations present in natural
image datasets. Finally, we use these insights to craft an analytical denoiser
that better matches scores predicted by a deep diffusion model than the prior
expert-crafted alternative.