La localité dans les modèles de diffusion d'images émerge des statistiques des données
Locality in Image Diffusion Models Emerges from Data Statistics
September 11, 2025
papers.authors: Artem Lukoianov, Chenyang Yuan, Justin Solomon, Vincent Sitzmann
cs.AI
papers.abstract
Parmi les modèles génératifs, les modèles de diffusion se distinguent par leur caractère particulièrement intriguant, notamment en raison de l'existence d'un minimiseur optimal en forme fermée pour leur objectif d'entraînement, souvent appelé le débruiteur optimal. Cependant, l'utilisation de ce débruiteur optimal dans le processus de diffusion se limite à reproduire les images de l'ensemble d'entraînement, échouant ainsi à capturer le comportement des modèles de diffusion profonds. Des travaux récents ont cherché à caractériser cet écart entre le débruiteur optimal et les modèles de diffusion profonds, proposant des modèles analytiques sans entraînement capables de générer des images ressemblant à celles produites par un UNet entraîné. La méthode la plus performante postule que l'équivariance par translation et les biais inductifs de localité des réseaux de neurones convolutifs sont à l'origine de cet écart de performance, intégrant ainsi ces hypothèses dans son modèle analytique. Dans ce travail, nous apportons des preuves que la localité dans les modèles de diffusion profonds émerge comme une propriété statistique de l'ensemble de données d'images, et non pas en raison du biais inductif des réseaux de neurones convolutifs. Plus précisément, nous démontrons qu'un débruiteur linéaire paramétrique optimal présente des propriétés de localité similaires à celles des débruiteurs neuronaux profonds. Nous montrons en outre, à la fois théoriquement et expérimentalement, que cette localité découle directement des corrélations de pixels présentes dans les ensembles de données d'images naturelles. Enfin, nous utilisons ces insights pour concevoir un débruiteur analytique qui correspond mieux aux scores prédits par un modèle de diffusion profond que l'alternative précédemment conçue par des experts.
English
Among generative models, diffusion models are uniquely intriguing due to the
existence of a closed-form optimal minimizer of their training objective, often
referred to as the optimal denoiser. However, diffusion using this optimal
denoiser merely reproduces images in the training set and hence fails to
capture the behavior of deep diffusion models. Recent work has attempted to
characterize this gap between the optimal denoiser and deep diffusion models,
proposing analytical, training-free models that can generate images that
resemble those generated by a trained UNet. The best-performing method
hypothesizes that shift equivariance and locality inductive biases of
convolutional neural networks are the cause of the performance gap, hence
incorporating these assumptions into its analytical model. In this work, we
present evidence that the locality in deep diffusion models emerges as a
statistical property of the image dataset, not due to the inductive bias of
convolutional neural networks. Specifically, we demonstrate that an optimal
parametric linear denoiser exhibits similar locality properties to the deep
neural denoisers. We further show, both theoretically and experimentally, that
this locality arises directly from the pixel correlations present in natural
image datasets. Finally, we use these insights to craft an analytical denoiser
that better matches scores predicted by a deep diffusion model than the prior
expert-crafted alternative.