Diffusionsmodelle übertreffen GANs bei der Bildklassifizierung
Diffusion Models Beat GANs on Image Classification
July 17, 2023
Autoren: Soumik Mukhopadhyay, Matthew Gwilliam, Vatsal Agarwal, Namitha Padmanabhan, Archana Swaminathan, Srinidhi Hegde, Tianyi Zhou, Abhinav Shrivastava
cs.AI
Zusammenfassung
Während sich viele unüberwachte Lernmodelle auf eine Familie von Aufgaben konzentrieren, entweder generative oder diskriminative, untersuchen wir die Möglichkeit eines einheitlichen Repräsentationslerners: ein Modell, das eine einzige Vorverarbeitungsphase nutzt, um beide Familien von Aufgaben gleichzeitig zu adressieren. Wir identifizieren Diffusionsmodelle als einen vielversprechenden Kandidaten. Diffusionsmodelle haben sich als eine state-of-the-art Methode für Bildgenerierung, Rauschunterdrückung, Inpainting, Super-Resolution, Manipulation usw. etabliert. Solche Modelle beinhalten das Training eines U-Nets, um iterativ Rauschen vorherzusagen und zu entfernen, und das resultierende Modell kann hochwertige, vielfältige, neuartige Bilder synthetisieren. Die U-Net-Architektur, als eine auf Faltungen basierende Architektur, erzeugt eine vielfältige Menge von Merkmalsrepräsentationen in Form von Zwischenmerkmalen. Wir präsentieren unsere Erkenntnisse, dass diese Einbettungen über die Rauschvorhersageaufgabe hinaus nützlich sind, da sie diskriminative Informationen enthalten und auch für die Klassifikation genutzt werden können. Wir untersuchen optimale Methoden zur Extraktion und Nutzung dieser Einbettungen für Klassifikationsaufgaben und demonstrieren vielversprechende Ergebnisse bei der ImageNet-Klassifikationsaufgabe. Wir stellen fest, dass Diffusionsmodelle bei sorgfältiger Merkmalsauswahl und Pooling vergleichbare generative-diskriminative Methoden wie BigBiGAN für Klassifikationsaufgaben übertreffen. Wir untersuchen Diffusionsmodelle im Transfer-Learning-Regime und prüfen ihre Leistung bei mehreren fein abgestimmten visuellen Klassifikationsdatensätzen. Wir vergleichen diese Einbettungen mit denen, die von konkurrierenden Architekturen und Vorverarbeitungen für Klassifikationsaufgaben erzeugt werden.
English
While many unsupervised learning models focus on one family of tasks, either
generative or discriminative, we explore the possibility of a unified
representation learner: a model which uses a single pre-training stage to
address both families of tasks simultaneously. We identify diffusion models as
a prime candidate. Diffusion models have risen to prominence as a
state-of-the-art method for image generation, denoising, inpainting,
super-resolution, manipulation, etc. Such models involve training a U-Net to
iteratively predict and remove noise, and the resulting model can synthesize
high fidelity, diverse, novel images. The U-Net architecture, as a
convolution-based architecture, generates a diverse set of feature
representations in the form of intermediate feature maps. We present our
findings that these embeddings are useful beyond the noise prediction task, as
they contain discriminative information and can also be leveraged for
classification. We explore optimal methods for extracting and using these
embeddings for classification tasks, demonstrating promising results on the
ImageNet classification task. We find that with careful feature selection and
pooling, diffusion models outperform comparable generative-discriminative
methods such as BigBiGAN for classification tasks. We investigate diffusion
models in the transfer learning regime, examining their performance on several
fine-grained visual classification datasets. We compare these embeddings to
those generated by competing architectures and pre-trainings for classification
tasks.