A localidade em modelos de difusão de imagens emerge das estatísticas dos dados
Locality in Image Diffusion Models Emerges from Data Statistics
September 11, 2025
Autores: Artem Lukoianov, Chenyang Yuan, Justin Solomon, Vincent Sitzmann
cs.AI
Resumo
Entre os modelos generativos, os modelos de difusão são particularmente intrigantes devido à existência de um minimizador ótimo de forma fechada para seu objetivo de treinamento, frequentemente referido como o desnuidador ótimo. No entanto, a difusão usando esse desnuidador ótimo meramente reproduz imagens do conjunto de treinamento e, portanto, falha em capturar o comportamento dos modelos de difusão profundos. Trabalhos recentes tentaram caracterizar essa lacuna entre o desnuidador ótimo e os modelos de difusão profundos, propondo modelos analíticos e livres de treinamento que podem gerar imagens semelhantes às geradas por uma UNet treinada. O método de melhor desempenho hipotetiza que a equivariância a deslocamentos e os vieses indutivos de localidade das redes neurais convolucionais são a causa da lacuna de desempenho, incorporando, portanto, essas suposições em seu modelo analítico. Neste trabalho, apresentamos evidências de que a localidade nos modelos de difusão profundos emerge como uma propriedade estatística do conjunto de dados de imagens, e não devido ao viés indutivo das redes neurais convolucionais. Especificamente, demonstramos que um desnuidador linear paramétrico ótimo exibe propriedades de localidade semelhantes às dos desnuidadores neurais profundos. Além disso, mostramos, tanto teoricamente quanto experimentalmente, que essa localidade surge diretamente das correlações de pixels presentes em conjuntos de dados de imagens naturais. Por fim, utilizamos essas percepções para criar um desnuidador analítico que corresponde melhor às pontuações previstas por um modelo de difusão profundo do que a alternativa anteriormente elaborada por especialistas.
English
Among generative models, diffusion models are uniquely intriguing due to the
existence of a closed-form optimal minimizer of their training objective, often
referred to as the optimal denoiser. However, diffusion using this optimal
denoiser merely reproduces images in the training set and hence fails to
capture the behavior of deep diffusion models. Recent work has attempted to
characterize this gap between the optimal denoiser and deep diffusion models,
proposing analytical, training-free models that can generate images that
resemble those generated by a trained UNet. The best-performing method
hypothesizes that shift equivariance and locality inductive biases of
convolutional neural networks are the cause of the performance gap, hence
incorporating these assumptions into its analytical model. In this work, we
present evidence that the locality in deep diffusion models emerges as a
statistical property of the image dataset, not due to the inductive bias of
convolutional neural networks. Specifically, we demonstrate that an optimal
parametric linear denoiser exhibits similar locality properties to the deep
neural denoisers. We further show, both theoretically and experimentally, that
this locality arises directly from the pixel correlations present in natural
image datasets. Finally, we use these insights to craft an analytical denoiser
that better matches scores predicted by a deep diffusion model than the prior
expert-crafted alternative.