Локальность в моделях диффузии изображений возникает из статистики данных
Locality in Image Diffusion Models Emerges from Data Statistics
September 11, 2025
Авторы: Artem Lukoianov, Chenyang Yuan, Justin Solomon, Vincent Sitzmann
cs.AI
Аннотация
Среди генеративных моделей диффузионные модели представляют особый интерес благодаря существованию замкнутой формы оптимального минимизатора их целевой функции обучения, часто называемого оптимальным денойзером. Однако использование этого оптимального денойзера в процессе диффузии лишь воспроизводит изображения из обучающего набора и, следовательно, не позволяет уловить поведение глубоких диффузионных моделей. Недавние исследования предприняли попытки охарактеризовать этот разрыв между оптимальным денойзером и глубокими диффузионными моделями, предложив аналитические модели, не требующие обучения, которые способны генерировать изображения, похожие на те, что создаются обученной UNet. Наиболее эффективный метод предполагает, что сдвиговая эквивариантность и локальные индуктивные предубеждения сверточных нейронных сетей являются причиной разрыва в производительности, и, следовательно, включает эти предположения в свою аналитическую модель. В данной работе мы представляем доказательства того, что локальность в глубоких диффузионных моделях возникает как статистическое свойство набора изображений, а не из-за индуктивного предубеждения сверточных нейронных сетей. В частности, мы демонстрируем, что оптимальный параметрический линейный денойзер проявляет схожие свойства локальности с глубокими нейронными денойзерами. Мы также показываем, как теоретически, так и экспериментально, что эта локальность напрямую возникает из корреляций пикселей, присутствующих в наборах данных естественных изображений. Наконец, используя эти инсайты, мы создаем аналитический денойзер, который лучше соответствует оценкам, предсказанным глубокой диффузионной моделью, чем ранее предложенный экспертами альтернативный вариант.
English
Among generative models, diffusion models are uniquely intriguing due to the
existence of a closed-form optimal minimizer of their training objective, often
referred to as the optimal denoiser. However, diffusion using this optimal
denoiser merely reproduces images in the training set and hence fails to
capture the behavior of deep diffusion models. Recent work has attempted to
characterize this gap between the optimal denoiser and deep diffusion models,
proposing analytical, training-free models that can generate images that
resemble those generated by a trained UNet. The best-performing method
hypothesizes that shift equivariance and locality inductive biases of
convolutional neural networks are the cause of the performance gap, hence
incorporating these assumptions into its analytical model. In this work, we
present evidence that the locality in deep diffusion models emerges as a
statistical property of the image dataset, not due to the inductive bias of
convolutional neural networks. Specifically, we demonstrate that an optimal
parametric linear denoiser exhibits similar locality properties to the deep
neural denoisers. We further show, both theoretically and experimentally, that
this locality arises directly from the pixel correlations present in natural
image datasets. Finally, we use these insights to craft an analytical denoiser
that better matches scores predicted by a deep diffusion model than the prior
expert-crafted alternative.