I Modelli di Diffusione Superano le GAN nella Classificazione delle Immagini
Diffusion Models Beat GANs on Image Classification
July 17, 2023
Autori: Soumik Mukhopadhyay, Matthew Gwilliam, Vatsal Agarwal, Namitha Padmanabhan, Archana Swaminathan, Srinidhi Hegde, Tianyi Zhou, Abhinav Shrivastava
cs.AI
Abstract
Mentre molti modelli di apprendimento non supervisionato si concentrano su una singola famiglia di compiti, sia generativi che discriminativi, esploriamo la possibilità di un apprendista di rappresentazione unificato: un modello che utilizza una singola fase di pre-addestramento per affrontare entrambe le famiglie di compiti simultaneamente. Identifichiamo i modelli di diffusione come un candidato ideale. I modelli di diffusione sono emersi come un metodo all'avanguardia per la generazione di immagini, la riduzione del rumore, l'inpainting, la super-risoluzione, la manipolazione, ecc. Tali modelli implicano l'addestramento di una U-Net per prevedere e rimuovere iterativamente il rumore, e il modello risultante può sintetizzare immagini ad alta fedeltà, diversificate e nuove. L'architettura U-Net, essendo basata su convoluzioni, genera un insieme diversificato di rappresentazioni di feature sotto forma di mappe di feature intermedie. Presentiamo le nostre scoperte che questi embedding sono utili oltre il compito di previsione del rumore, poiché contengono informazioni discriminative e possono anche essere sfruttati per la classificazione. Esploriamo metodi ottimali per estrarre e utilizzare questi embedding per compiti di classificazione, dimostrando risultati promettenti nel compito di classificazione ImageNet. Troviamo che con un'attenta selezione delle feature e pooling, i modelli di diffusione superano metodi generativo-discriminativi comparabili come BigBiGAN per i compiti di classificazione. Investigiamo i modelli di diffusione nel regime di trasferimento dell'apprendimento, esaminando le loro prestazioni su diversi dataset di classificazione visiva fine-grained. Confrontiamo questi embedding con quelli generati da architetture e pre-addestramenti concorrenti per i compiti di classificazione.
English
While many unsupervised learning models focus on one family of tasks, either
generative or discriminative, we explore the possibility of a unified
representation learner: a model which uses a single pre-training stage to
address both families of tasks simultaneously. We identify diffusion models as
a prime candidate. Diffusion models have risen to prominence as a
state-of-the-art method for image generation, denoising, inpainting,
super-resolution, manipulation, etc. Such models involve training a U-Net to
iteratively predict and remove noise, and the resulting model can synthesize
high fidelity, diverse, novel images. The U-Net architecture, as a
convolution-based architecture, generates a diverse set of feature
representations in the form of intermediate feature maps. We present our
findings that these embeddings are useful beyond the noise prediction task, as
they contain discriminative information and can also be leveraged for
classification. We explore optimal methods for extracting and using these
embeddings for classification tasks, demonstrating promising results on the
ImageNet classification task. We find that with careful feature selection and
pooling, diffusion models outperform comparable generative-discriminative
methods such as BigBiGAN for classification tasks. We investigate diffusion
models in the transfer learning regime, examining their performance on several
fine-grained visual classification datasets. We compare these embeddings to
those generated by competing architectures and pre-trainings for classification
tasks.