Die Lokalität in Bilddiffusionsmodellen ergibt sich aus den Datenstatistiken.
Locality in Image Diffusion Models Emerges from Data Statistics
September 11, 2025
papers.authors: Artem Lukoianov, Chenyang Yuan, Justin Solomon, Vincent Sitzmann
cs.AI
papers.abstract
Unter den generativen Modellen sind Diffusionsmodelle besonders faszinierend, da für ihr Trainingsziel ein geschlossener optimaler Minimierer existiert, der oft als optimaler Entrauscher bezeichnet wird. Allerdings reproduziert die Diffusion mit diesem optimalen Entrauscher lediglich Bilder aus dem Trainingsdatensatz und erfasst somit nicht das Verhalten tiefer Diffusionsmodelle. Jüngste Arbeiten haben versucht, diese Lücke zwischen dem optimalen Entrauscher und tiefen Diffusionsmodellen zu charakterisieren, indem sie analytische, trainingsfreie Modelle vorgeschlagen haben, die Bilder erzeugen können, die denen eines trainierten UNet ähneln. Die leistungsstärkste Methode geht davon aus, dass die Verschiebungsäquivarianz und die lokalen induktiven Verzerrungen von Faltungsneuronalen Netzen die Ursache für die Leistungslücke sind, und integriert diese Annahmen in ihr analytisches Modell. In dieser Arbeit präsentieren wir Belege dafür, dass die Lokalität in tiefen Diffusionsmodellen als statistische Eigenschaft des Bilddatensatzes entsteht und nicht auf die induktive Verzerrung von Faltungsneuronalen Netzen zurückzuführen ist. Insbesondere zeigen wir, dass ein optimaler parametrischer linearer Entrauscher ähnliche Lokalitätseigenschaften wie tiefe neuronale Entrauscher aufweist. Wir zeigen weiterhin, sowohl theoretisch als auch experimentell, dass diese Lokalität direkt aus den Pixelkorrelationen in natürlichen Bilddatensätzen hervorgeht. Schließlich nutzen wir diese Erkenntnisse, um einen analytischen Entrauscher zu entwickeln, der die von einem tiefen Diffusionsmodell vorhergesagten Scores besser abbildet als das zuvor von Experten entwickelte Alternativmodell.
English
Among generative models, diffusion models are uniquely intriguing due to the
existence of a closed-form optimal minimizer of their training objective, often
referred to as the optimal denoiser. However, diffusion using this optimal
denoiser merely reproduces images in the training set and hence fails to
capture the behavior of deep diffusion models. Recent work has attempted to
characterize this gap between the optimal denoiser and deep diffusion models,
proposing analytical, training-free models that can generate images that
resemble those generated by a trained UNet. The best-performing method
hypothesizes that shift equivariance and locality inductive biases of
convolutional neural networks are the cause of the performance gap, hence
incorporating these assumptions into its analytical model. In this work, we
present evidence that the locality in deep diffusion models emerges as a
statistical property of the image dataset, not due to the inductive bias of
convolutional neural networks. Specifically, we demonstrate that an optimal
parametric linear denoiser exhibits similar locality properties to the deep
neural denoisers. We further show, both theoretically and experimentally, that
this locality arises directly from the pixel correlations present in natural
image datasets. Finally, we use these insights to craft an analytical denoiser
that better matches scores predicted by a deep diffusion model than the prior
expert-crafted alternative.