La localidad en los modelos de difusión de imágenes emerge de las estadísticas de los datos.

Resumen

Entre los modelos generativos, los modelos de difusión son particularmente intrigantes debido a la existencia de un minimizador óptimo de forma cerrada para su objetivo de entrenamiento, a menudo denominado el desenturbiador óptimo. Sin embargo, la difusión utilizando este desenturbiador óptimo simplemente reproduce las imágenes del conjunto de entrenamiento y, por lo tanto, no logra capturar el comportamiento de los modelos de difusión profundos. Trabajos recientes han intentado caracterizar esta brecha entre el desenturbiador óptimo y los modelos de difusión profundos, proponiendo modelos analíticos y libres de entrenamiento que pueden generar imágenes similares a las producidas por una UNet entrenada. El método de mejor rendimiento plantea la hipótesis de que la equivariancia al desplazamiento y los sesgos inductivos de localidad de las redes neuronales convolucionales son la causa de la brecha de rendimiento, incorporando así estas suposiciones en su modelo analítico. En este trabajo, presentamos evidencia de que la localidad en los modelos de difusión profundos surge como una propiedad estadística del conjunto de datos de imágenes, y no debido al sesgo inductivo de las redes neuronales convolucionales. Específicamente, demostramos que un desenturbiador lineal paramétrico óptimo exhibe propiedades de localidad similares a las de los desenturbiadores neuronales profundos. Además, mostramos, tanto teórica como experimentalmente, que esta localidad surge directamente de las correlaciones de píxeles presentes en los conjuntos de datos de imágenes naturales. Finalmente, utilizamos estas ideas para diseñar un desenturbiador analítico que se ajusta mejor a las puntuaciones predichas por un modelo de difusión profundo que la alternativa previamente diseñada por expertos.

English

Among generative models, diffusion models are uniquely intriguing due to the existence of a closed-form optimal minimizer of their training objective, often referred to as the optimal denoiser. However, diffusion using this optimal denoiser merely reproduces images in the training set and hence fails to capture the behavior of deep diffusion models. Recent work has attempted to characterize this gap between the optimal denoiser and deep diffusion models, proposing analytical, training-free models that can generate images that resemble those generated by a trained UNet. The best-performing method hypothesizes that shift equivariance and locality inductive biases of convolutional neural networks are the cause of the performance gap, hence incorporating these assumptions into its analytical model. In this work, we present evidence that the locality in deep diffusion models emerges as a statistical property of the image dataset, not due to the inductive bias of convolutional neural networks. Specifically, we demonstrate that an optimal parametric linear denoiser exhibits similar locality properties to the deep neural denoisers. We further show, both theoretically and experimentally, that this locality arises directly from the pixel correlations present in natural image datasets. Finally, we use these insights to craft an analytical denoiser that better matches scores predicted by a deep diffusion model than the prior expert-crafted alternative.

La localidad en los modelos de difusión de imágenes emerge de las estadísticas de los datos.

Locality in Image Diffusion Models Emerges from Data Statistics

Resumen

Support