ChatPaper.aiChatPaper

画像拡散モデルにおける局所性はデータ統計から生じる

Locality in Image Diffusion Models Emerges from Data Statistics

September 11, 2025
著者: Artem Lukoianov, Chenyang Yuan, Justin Solomon, Vincent Sitzmann
cs.AI

要旨

生成モデルの中でも、拡散モデルはその訓練目的関数の閉形式最適最小化器(しばしば最適デノイザーと呼ばれる)が存在する点で特に興味深い。しかし、この最適デノイザーを用いた拡散は、訓練セット内の画像を単に再現するだけで、深層拡散モデルの挙動を捉えることができない。最近の研究では、この最適デノイザーと深層拡散モデルの間のギャップを特徴づけようと試みられ、訓練不要の解析モデルを提案し、訓練済みUNetによって生成される画像に似た画像を生成できるようにしている。最も性能の良い手法は、畳み込みニューラルネットワークのシフト等価性と局所性の帰納的バイアスが性能ギャップの原因であると仮定し、これらの仮定を解析モデルに組み込んでいる。本研究では、深層拡散モデルにおける局所性が、畳み込みニューラルネットワークの帰納的バイアスによるものではなく、画像データセットの統計的特性として現れることを示す証拠を提示する。具体的には、最適なパラメトリック線形デノイザーが、深層ニューラルデノイザーと同様の局所性を示すことを実証する。さらに、理論的および実験的に、この局所性が自然画像データセットに存在するピクセル相関から直接生じることを示す。最後に、これらの知見を活用して、従来の専門家が作成した代替モデルよりも、深層拡散モデルによって予測されるスコアにより一致する解析デノイザーを構築する。
English
Among generative models, diffusion models are uniquely intriguing due to the existence of a closed-form optimal minimizer of their training objective, often referred to as the optimal denoiser. However, diffusion using this optimal denoiser merely reproduces images in the training set and hence fails to capture the behavior of deep diffusion models. Recent work has attempted to characterize this gap between the optimal denoiser and deep diffusion models, proposing analytical, training-free models that can generate images that resemble those generated by a trained UNet. The best-performing method hypothesizes that shift equivariance and locality inductive biases of convolutional neural networks are the cause of the performance gap, hence incorporating these assumptions into its analytical model. In this work, we present evidence that the locality in deep diffusion models emerges as a statistical property of the image dataset, not due to the inductive bias of convolutional neural networks. Specifically, we demonstrate that an optimal parametric linear denoiser exhibits similar locality properties to the deep neural denoisers. We further show, both theoretically and experimentally, that this locality arises directly from the pixel correlations present in natural image datasets. Finally, we use these insights to craft an analytical denoiser that better matches scores predicted by a deep diffusion model than the prior expert-crafted alternative.
PDF122September 16, 2025