La localidad en los modelos de difusión de imágenes emerge de las estadísticas de los datos.
Locality in Image Diffusion Models Emerges from Data Statistics
September 11, 2025
Autores: Artem Lukoianov, Chenyang Yuan, Justin Solomon, Vincent Sitzmann
cs.AI
Resumen
Entre los modelos generativos, los modelos de difusión son particularmente intrigantes debido a la existencia de un minimizador óptimo de forma cerrada para su objetivo de entrenamiento, a menudo denominado el desenturbiador óptimo. Sin embargo, la difusión utilizando este desenturbiador óptimo simplemente reproduce las imágenes del conjunto de entrenamiento y, por lo tanto, no logra capturar el comportamiento de los modelos de difusión profundos. Trabajos recientes han intentado caracterizar esta brecha entre el desenturbiador óptimo y los modelos de difusión profundos, proponiendo modelos analíticos y libres de entrenamiento que pueden generar imágenes similares a las producidas por una UNet entrenada. El método de mejor rendimiento plantea la hipótesis de que la equivariancia al desplazamiento y los sesgos inductivos de localidad de las redes neuronales convolucionales son la causa de la brecha de rendimiento, incorporando así estas suposiciones en su modelo analítico. En este trabajo, presentamos evidencia de que la localidad en los modelos de difusión profundos surge como una propiedad estadística del conjunto de datos de imágenes, y no debido al sesgo inductivo de las redes neuronales convolucionales. Específicamente, demostramos que un desenturbiador lineal paramétrico óptimo exhibe propiedades de localidad similares a las de los desenturbiadores neuronales profundos. Además, mostramos, tanto teórica como experimentalmente, que esta localidad surge directamente de las correlaciones de píxeles presentes en los conjuntos de datos de imágenes naturales. Finalmente, utilizamos estas ideas para diseñar un desenturbiador analítico que se ajusta mejor a las puntuaciones predichas por un modelo de difusión profundo que la alternativa previamente diseñada por expertos.
English
Among generative models, diffusion models are uniquely intriguing due to the
existence of a closed-form optimal minimizer of their training objective, often
referred to as the optimal denoiser. However, diffusion using this optimal
denoiser merely reproduces images in the training set and hence fails to
capture the behavior of deep diffusion models. Recent work has attempted to
characterize this gap between the optimal denoiser and deep diffusion models,
proposing analytical, training-free models that can generate images that
resemble those generated by a trained UNet. The best-performing method
hypothesizes that shift equivariance and locality inductive biases of
convolutional neural networks are the cause of the performance gap, hence
incorporating these assumptions into its analytical model. In this work, we
present evidence that the locality in deep diffusion models emerges as a
statistical property of the image dataset, not due to the inductive bias of
convolutional neural networks. Specifically, we demonstrate that an optimal
parametric linear denoiser exhibits similar locality properties to the deep
neural denoisers. We further show, both theoretically and experimentally, that
this locality arises directly from the pixel correlations present in natural
image datasets. Finally, we use these insights to craft an analytical denoiser
that better matches scores predicted by a deep diffusion model than the prior
expert-crafted alternative.