I Modelli di Diffusione Superano le GAN nella Classificazione delle Immagini

Abstract

Mentre molti modelli di apprendimento non supervisionato si concentrano su una singola famiglia di compiti, sia generativi che discriminativi, esploriamo la possibilità di un apprendista di rappresentazione unificato: un modello che utilizza una singola fase di pre-addestramento per affrontare entrambe le famiglie di compiti simultaneamente. Identifichiamo i modelli di diffusione come un candidato ideale. I modelli di diffusione sono emersi come un metodo all'avanguardia per la generazione di immagini, la riduzione del rumore, l'inpainting, la super-risoluzione, la manipolazione, ecc. Tali modelli implicano l'addestramento di una U-Net per prevedere e rimuovere iterativamente il rumore, e il modello risultante può sintetizzare immagini ad alta fedeltà, diversificate e nuove. L'architettura U-Net, essendo basata su convoluzioni, genera un insieme diversificato di rappresentazioni di feature sotto forma di mappe di feature intermedie. Presentiamo le nostre scoperte che questi embedding sono utili oltre il compito di previsione del rumore, poiché contengono informazioni discriminative e possono anche essere sfruttati per la classificazione. Esploriamo metodi ottimali per estrarre e utilizzare questi embedding per compiti di classificazione, dimostrando risultati promettenti nel compito di classificazione ImageNet. Troviamo che con un'attenta selezione delle feature e pooling, i modelli di diffusione superano metodi generativo-discriminativi comparabili come BigBiGAN per i compiti di classificazione. Investigiamo i modelli di diffusione nel regime di trasferimento dell'apprendimento, esaminando le loro prestazioni su diversi dataset di classificazione visiva fine-grained. Confrontiamo questi embedding con quelli generati da architetture e pre-addestramenti concorrenti per i compiti di classificazione.

English

While many unsupervised learning models focus on one family of tasks, either generative or discriminative, we explore the possibility of a unified representation learner: a model which uses a single pre-training stage to address both families of tasks simultaneously. We identify diffusion models as a prime candidate. Diffusion models have risen to prominence as a state-of-the-art method for image generation, denoising, inpainting, super-resolution, manipulation, etc. Such models involve training a U-Net to iteratively predict and remove noise, and the resulting model can synthesize high fidelity, diverse, novel images. The U-Net architecture, as a convolution-based architecture, generates a diverse set of feature representations in the form of intermediate feature maps. We present our findings that these embeddings are useful beyond the noise prediction task, as they contain discriminative information and can also be leveraged for classification. We explore optimal methods for extracting and using these embeddings for classification tasks, demonstrating promising results on the ImageNet classification task. We find that with careful feature selection and pooling, diffusion models outperform comparable generative-discriminative methods such as BigBiGAN for classification tasks. We investigate diffusion models in the transfer learning regime, examining their performance on several fine-grained visual classification datasets. We compare these embeddings to those generated by competing architectures and pre-trainings for classification tasks.

I Modelli di Diffusione Superano le GAN nella Classificazione delle Immagini

Diffusion Models Beat GANs on Image Classification

Abstract

Support