Les modèles de diffusion surpassent les GANs en classification d'images.
Diffusion Models Beat GANs on Image Classification
July 17, 2023
Auteurs: Soumik Mukhopadhyay, Matthew Gwilliam, Vatsal Agarwal, Namitha Padmanabhan, Archana Swaminathan, Srinidhi Hegde, Tianyi Zhou, Abhinav Shrivastava
cs.AI
Résumé
Alors que de nombreux modèles d'apprentissage non supervisé se concentrent sur une seule famille de tâches, qu'elles soient génératives ou discriminatives, nous explorons la possibilité d'un apprenant de représentation unifié : un modèle qui utilise une seule étape de pré-entraînement pour aborder simultanément les deux familles de tâches. Nous identifions les modèles de diffusion comme un candidat de premier choix. Les modèles de diffusion ont gagné en notoriété en tant que méthode de pointe pour la génération d'images, le débruitage, l'inpainting, la super-résolution, la manipulation, etc. Ces modèles impliquent l'entraînement d'un U-Net pour prédire et supprimer itérativement le bruit, et le modèle résultant peut synthétiser des images nouvelles, diversifiées et de haute fidélité. L'architecture U-Net, en tant qu'architecture basée sur des convolutions, génère un ensemble diversifié de représentations de caractéristiques sous forme de cartes de caractéristiques intermédiaires. Nous présentons nos découvertes selon lesquelles ces embeddings sont utiles au-delà de la tâche de prédiction du bruit, car ils contiennent des informations discriminatives et peuvent également être exploités pour la classification. Nous explorons des méthodes optimales pour extraire et utiliser ces embeddings pour des tâches de classification, démontrant des résultats prometteurs sur la tâche de classification ImageNet. Nous constatons qu'avec une sélection et un regroupement minutieux des caractéristiques, les modèles de diffusion surpassent des méthodes génératives-discriminatives comparables telles que BigBiGAN pour les tâches de classification. Nous étudions les modèles de diffusion dans le cadre de l'apprentissage par transfert, en examinant leurs performances sur plusieurs ensembles de données de classification visuelle fine. Nous comparons ces embeddings à ceux générés par des architectures et des pré-entraînements concurrents pour les tâches de classification.
English
While many unsupervised learning models focus on one family of tasks, either
generative or discriminative, we explore the possibility of a unified
representation learner: a model which uses a single pre-training stage to
address both families of tasks simultaneously. We identify diffusion models as
a prime candidate. Diffusion models have risen to prominence as a
state-of-the-art method for image generation, denoising, inpainting,
super-resolution, manipulation, etc. Such models involve training a U-Net to
iteratively predict and remove noise, and the resulting model can synthesize
high fidelity, diverse, novel images. The U-Net architecture, as a
convolution-based architecture, generates a diverse set of feature
representations in the form of intermediate feature maps. We present our
findings that these embeddings are useful beyond the noise prediction task, as
they contain discriminative information and can also be leveraged for
classification. We explore optimal methods for extracting and using these
embeddings for classification tasks, demonstrating promising results on the
ImageNet classification task. We find that with careful feature selection and
pooling, diffusion models outperform comparable generative-discriminative
methods such as BigBiGAN for classification tasks. We investigate diffusion
models in the transfer learning regime, examining their performance on several
fine-grained visual classification datasets. We compare these embeddings to
those generated by competing architectures and pre-trainings for classification
tasks.