基本に戻ろう:ノイズ除去生成モデルにノイズ除去をさせよ
Back to Basics: Let Denoising Generative Models Denoise
November 17, 2025
著者: Tianhong Li, Kaiming He
cs.AI
要旨
今日のノイズ除去拡散モデルは、従来の意味での「ノイズ除去」を行っているわけではありません。つまり、クリーンな画像を直接予測するわけではないのです。むしろ、ニューラルネットワークはノイズ、あるいはノイズが加わった量を予測します。本論文では、クリーンデータの予測とノイズが加わった量の予測は根本的に異なるものであると提案します。多様体仮説によれば、自然データは低次元多様体上に存在すべきであるのに対し、ノイズが加わった量はそうではありません。この仮説に基づき、我々はクリーンデータを直接予測するモデルを提唱します。このアプローチにより、一見すると容量不足と思われるネットワークが、非常に高次元の空間において効果的に動作することが可能になります。我々は、単純な大パッチサイズのピクセルベースのTransformerが、強力な生成モデルとなり得ることを示します:トークナイザーなし、事前学習なし、追加の損失関数なしで。我々のアプローチは概念的に、「ただの画像Transformer」、我々が「JiT」と呼ぶものに他なりません。ImageNetにおいて、256および512解像度で、パッチサイズ16および32のJiTを用いて競争力のある結果を報告します。この条件下では、高次元のノイズ付き量を予測する手法は壊滅的に失敗し得ます。我々のネットワークが多様体の基本に立ち返ってマッピングを行うことで、我々の研究も基本に立ち返り、生の自然データに対するTransformerベースの拡散モデルのための自己完結的なパラダイムを追求します。
English
Today's denoising diffusion models do not "denoise" in the classical sense, i.e., they do not directly predict clean images. Rather, the neural networks predict noise or a noised quantity. In this paper, we suggest that predicting clean data and predicting noised quantities are fundamentally different. According to the manifold assumption, natural data should lie on a low-dimensional manifold, whereas noised quantities do not. With this assumption, we advocate for models that directly predict clean data, which allows apparently under-capacity networks to operate effectively in very high-dimensional spaces. We show that simple, large-patch Transformers on pixels can be strong generative models: using no tokenizer, no pre-training, and no extra loss. Our approach is conceptually nothing more than "Just image Transformers", or JiT, as we call it. We report competitive results using JiT with large patch sizes of 16 and 32 on ImageNet at resolutions of 256 and 512, where predicting high-dimensional noised quantities can fail catastrophically. With our networks mapping back to the basics of the manifold, our research goes back to basics and pursues a self-contained paradigm for Transformer-based diffusion on raw natural data.