拡散モデルが画像分類においてGANを上回る
Diffusion Models Beat GANs on Image Classification
July 17, 2023
著者: Soumik Mukhopadhyay, Matthew Gwilliam, Vatsal Agarwal, Namitha Padmanabhan, Archana Swaminathan, Srinidhi Hegde, Tianyi Zhou, Abhinav Shrivastava
cs.AI
要旨
多くの教師なし学習モデルは、生成タスクまたは識別タスクのいずれか一方に焦点を当てていますが、私たちは両方のタスクファミリーを同時に扱う単一の事前学習段階を使用する統一的な表現学習モデルの可能性を探求します。私たちは、拡散モデルがその主要な候補であると特定しました。拡散モデルは、画像生成、ノイズ除去、インペインティング、超解像、操作などにおいて最先端の手法として注目を集めています。これらのモデルは、U-Netを訓練してノイズを反復的に予測し除去するものであり、その結果として得られるモデルは高忠実度で多様な新しい画像を合成することができます。U-Netアーキテクチャは、畳み込みベースのアーキテクチャとして、中間特徴マップの形で多様な特徴表現を生成します。私たちは、これらの埋め込みがノイズ予測タスクを超えて有用であることを発見しました。それらは識別情報を含んでおり、分類にも活用できるからです。私たちは、これらの埋め込みを抽出し分類タスクに使用する最適な方法を探求し、ImageNet分類タスクにおいて有望な結果を示しました。注意深い特徴選択とプーリングを行うことで、拡散モデルはBigBiGANなどの生成-識別手法を分類タスクにおいて上回ることがわかりました。私たちは、転移学習の領域における拡散モデルを調査し、いくつかの細粒度視覚分類データセットでの性能を検証しました。これらの埋め込みを、競合するアーキテクチャや事前学習によって生成された埋め込みと比較しました。
English
While many unsupervised learning models focus on one family of tasks, either
generative or discriminative, we explore the possibility of a unified
representation learner: a model which uses a single pre-training stage to
address both families of tasks simultaneously. We identify diffusion models as
a prime candidate. Diffusion models have risen to prominence as a
state-of-the-art method for image generation, denoising, inpainting,
super-resolution, manipulation, etc. Such models involve training a U-Net to
iteratively predict and remove noise, and the resulting model can synthesize
high fidelity, diverse, novel images. The U-Net architecture, as a
convolution-based architecture, generates a diverse set of feature
representations in the form of intermediate feature maps. We present our
findings that these embeddings are useful beyond the noise prediction task, as
they contain discriminative information and can also be leveraged for
classification. We explore optimal methods for extracting and using these
embeddings for classification tasks, demonstrating promising results on the
ImageNet classification task. We find that with careful feature selection and
pooling, diffusion models outperform comparable generative-discriminative
methods such as BigBiGAN for classification tasks. We investigate diffusion
models in the transfer learning regime, examining their performance on several
fine-grained visual classification datasets. We compare these embeddings to
those generated by competing architectures and pre-trainings for classification
tasks.