ChatPaper.aiChatPaper

Les modèles de diffusion surpassent les GANs en classification d'images.

Diffusion Models Beat GANs on Image Classification

July 17, 2023
Auteurs: Soumik Mukhopadhyay, Matthew Gwilliam, Vatsal Agarwal, Namitha Padmanabhan, Archana Swaminathan, Srinidhi Hegde, Tianyi Zhou, Abhinav Shrivastava
cs.AI

Résumé

Alors que de nombreux modèles d'apprentissage non supervisé se concentrent sur une seule famille de tâches, qu'elles soient génératives ou discriminatives, nous explorons la possibilité d'un apprenant de représentation unifié : un modèle qui utilise une seule étape de pré-entraînement pour aborder simultanément les deux familles de tâches. Nous identifions les modèles de diffusion comme un candidat de premier choix. Les modèles de diffusion ont gagné en notoriété en tant que méthode de pointe pour la génération d'images, le débruitage, l'inpainting, la super-résolution, la manipulation, etc. Ces modèles impliquent l'entraînement d'un U-Net pour prédire et supprimer itérativement le bruit, et le modèle résultant peut synthétiser des images nouvelles, diversifiées et de haute fidélité. L'architecture U-Net, en tant qu'architecture basée sur des convolutions, génère un ensemble diversifié de représentations de caractéristiques sous forme de cartes de caractéristiques intermédiaires. Nous présentons nos découvertes selon lesquelles ces embeddings sont utiles au-delà de la tâche de prédiction du bruit, car ils contiennent des informations discriminatives et peuvent également être exploités pour la classification. Nous explorons des méthodes optimales pour extraire et utiliser ces embeddings pour des tâches de classification, démontrant des résultats prometteurs sur la tâche de classification ImageNet. Nous constatons qu'avec une sélection et un regroupement minutieux des caractéristiques, les modèles de diffusion surpassent des méthodes génératives-discriminatives comparables telles que BigBiGAN pour les tâches de classification. Nous étudions les modèles de diffusion dans le cadre de l'apprentissage par transfert, en examinant leurs performances sur plusieurs ensembles de données de classification visuelle fine. Nous comparons ces embeddings à ceux générés par des architectures et des pré-entraînements concurrents pour les tâches de classification.
English
While many unsupervised learning models focus on one family of tasks, either generative or discriminative, we explore the possibility of a unified representation learner: a model which uses a single pre-training stage to address both families of tasks simultaneously. We identify diffusion models as a prime candidate. Diffusion models have risen to prominence as a state-of-the-art method for image generation, denoising, inpainting, super-resolution, manipulation, etc. Such models involve training a U-Net to iteratively predict and remove noise, and the resulting model can synthesize high fidelity, diverse, novel images. The U-Net architecture, as a convolution-based architecture, generates a diverse set of feature representations in the form of intermediate feature maps. We present our findings that these embeddings are useful beyond the noise prediction task, as they contain discriminative information and can also be leveraged for classification. We explore optimal methods for extracting and using these embeddings for classification tasks, demonstrating promising results on the ImageNet classification task. We find that with careful feature selection and pooling, diffusion models outperform comparable generative-discriminative methods such as BigBiGAN for classification tasks. We investigate diffusion models in the transfer learning regime, examining their performance on several fine-grained visual classification datasets. We compare these embeddings to those generated by competing architectures and pre-trainings for classification tasks.
PDF181December 15, 2024