La località nei modelli di diffusione delle immagini emerge dalle statistiche dei dati
Locality in Image Diffusion Models Emerges from Data Statistics
September 11, 2025
Autori: Artem Lukoianov, Chenyang Yuan, Justin Solomon, Vincent Sitzmann
cs.AI
Abstract
Tra i modelli generativi, i modelli di diffusione sono particolarmente interessanti grazie all'esistenza di un minimizzatore ottimale in forma chiusa per la loro funzione di addestramento, spesso indicato come il denoiser ottimale. Tuttavia, l'utilizzo di questo denoiser ottimale nella diffusione si limita a riprodurre le immagini presenti nel set di addestramento, fallendo quindi nel catturare il comportamento dei modelli di diffusione profondi. Recenti lavori hanno cercato di caratterizzare questo divario tra il denoiser ottimale e i modelli di diffusione profondi, proponendo modelli analitici, privi di addestramento, in grado di generare immagini simili a quelle prodotte da una UNet addestrata. Il metodo con le migliori prestazioni ipotizza che l'equivarianza rispetto alle traslazioni e i bias induttivi di località delle reti neurali convoluzionali siano la causa del divario di prestazioni, incorporando quindi queste assunzioni nel suo modello analitico. In questo lavoro, presentiamo prove che la località nei modelli di diffusione profondi emerge come una proprietà statistica del dataset di immagini, e non a causa del bias induttivo delle reti neurali convoluzionali. Nello specifico, dimostriamo che un denoiser lineare parametrico ottimale mostra proprietà di località simili a quelle dei denoiser neurali profondi. Inoltre, mostriamo sia teoricamente che sperimentalmente che questa località deriva direttamente dalle correlazioni tra pixel presenti nei dataset di immagini naturali. Infine, utilizziamo queste intuizioni per creare un denoiser analitico che si avvicina maggiormente ai punteggi previsti da un modello di diffusione profondo rispetto all'alternativa precedentemente proposta da esperti.
English
Among generative models, diffusion models are uniquely intriguing due to the
existence of a closed-form optimal minimizer of their training objective, often
referred to as the optimal denoiser. However, diffusion using this optimal
denoiser merely reproduces images in the training set and hence fails to
capture the behavior of deep diffusion models. Recent work has attempted to
characterize this gap between the optimal denoiser and deep diffusion models,
proposing analytical, training-free models that can generate images that
resemble those generated by a trained UNet. The best-performing method
hypothesizes that shift equivariance and locality inductive biases of
convolutional neural networks are the cause of the performance gap, hence
incorporating these assumptions into its analytical model. In this work, we
present evidence that the locality in deep diffusion models emerges as a
statistical property of the image dataset, not due to the inductive bias of
convolutional neural networks. Specifically, we demonstrate that an optimal
parametric linear denoiser exhibits similar locality properties to the deep
neural denoisers. We further show, both theoretically and experimentally, that
this locality arises directly from the pixel correlations present in natural
image datasets. Finally, we use these insights to craft an analytical denoiser
that better matches scores predicted by a deep diffusion model than the prior
expert-crafted alternative.