Lokaliteit in beelddiffusiemodellen ontstaat uit datastatistieken
Locality in Image Diffusion Models Emerges from Data Statistics
September 11, 2025
Auteurs: Artem Lukoianov, Chenyang Yuan, Justin Solomon, Vincent Sitzmann
cs.AI
Samenvatting
Onder generatieve modellen zijn diffusiemodellen bijzonder intrigerend vanwege het bestaan van een gesloten-vorm optimale minimalisator van hun trainingsdoel, vaak aangeduid als de optimale denoiser. Echter, diffusie met deze optimale denoiser reproduceert slechts afbeeldingen uit de trainingsset en slaagt er daarom niet in het gedrag van diepe diffusiemodellen vast te leggen. Recent werk heeft geprobeerd deze kloof tussen de optimale denoiser en diepe diffusiemodellen te karakteriseren, door analytische, trainingsvrije modellen voor te stellen die afbeeldingen kunnen genereren die lijken op die gegenereerd door een getrainde UNet. De best presterende methode veronderstelt dat shift-equivariantie en localiteitsinductieve biases van convolutionele neurale netwerken de oorzaak zijn van de prestatiekloof, en neemt deze aannames daarom op in zijn analytische model. In dit werk presenteren we bewijs dat de localiteit in diepe diffusiemodellen voortkomt als een statistische eigenschap van de afbeeldingsdataset, en niet door de inductieve bias van convolutionele neurale netwerken. Specifiek tonen we aan dat een optimale parametrische lineaire denoiser vergelijkbare localiteitseigenschappen vertoont als de diepe neurale denoisers. We laten verder zien, zowel theoretisch als experimenteel, dat deze localiteit direct voortkomt uit de pixelcorrelaties die aanwezig zijn in natuurlijke afbeeldingsdatasets. Ten slotte gebruiken we deze inzichten om een analytische denoiser te ontwerpen die beter overeenkomt met scores voorspeld door een diep diffusiemodel dan het eerder door experts ontworpen alternatief.
English
Among generative models, diffusion models are uniquely intriguing due to the
existence of a closed-form optimal minimizer of their training objective, often
referred to as the optimal denoiser. However, diffusion using this optimal
denoiser merely reproduces images in the training set and hence fails to
capture the behavior of deep diffusion models. Recent work has attempted to
characterize this gap between the optimal denoiser and deep diffusion models,
proposing analytical, training-free models that can generate images that
resemble those generated by a trained UNet. The best-performing method
hypothesizes that shift equivariance and locality inductive biases of
convolutional neural networks are the cause of the performance gap, hence
incorporating these assumptions into its analytical model. In this work, we
present evidence that the locality in deep diffusion models emerges as a
statistical property of the image dataset, not due to the inductive bias of
convolutional neural networks. Specifically, we demonstrate that an optimal
parametric linear denoiser exhibits similar locality properties to the deep
neural denoisers. We further show, both theoretically and experimentally, that
this locality arises directly from the pixel correlations present in natural
image datasets. Finally, we use these insights to craft an analytical denoiser
that better matches scores predicted by a deep diffusion model than the prior
expert-crafted alternative.