Diffusiemodellen verslaan GANs bij beeldclassificatie

Samenvatting

Terwijl veel unsupervised learning-modellen zich richten op één familie van taken, ofwel generatief ofwel discriminatief, onderzoeken wij de mogelijkheid van een geïntegreerde representatieleerder: een model dat een enkele voorafgaande trainingsfase gebruikt om beide families van taken gelijktijdig aan te pakken. Wij identificeren diffusiemodellen als een veelbelovende kandidaat. Diffusiemodellen zijn naar voren gekomen als een state-of-the-art methode voor beeldgeneratie, ruisreductie, inpainting, superresolutie, manipulatie, enzovoort. Dergelijke modellen omvatten het trainen van een U-Net om iteratief ruis te voorspellen en te verwijderen, en het resulterende model kan hoogwaardige, diverse, nieuwe afbeeldingen synthetiseren. De U-Net-architectuur, als een op convolutie gebaseerde architectuur, genereert een diverse set van kenmerkrepresentaties in de vorm van tussenliggende kenmerkkaarten. Wij presenteren onze bevindingen dat deze embeddings nuttig zijn buiten de ruisvoorspellingstaak, omdat ze discriminatieve informatie bevatten en ook kunnen worden benut voor classificatie. Wij onderzoeken optimale methoden voor het extraheren en gebruiken van deze embeddings voor classificatietaken, waarbij we veelbelovende resultaten demonstreren op de ImageNet-classificatietaak. Wij constateren dat met zorgvuldige kenmerkselectie en pooling, diffusiemodellen vergelijkbare generatief-discriminatieve methoden zoals BigBiGAN overtreffen voor classificatietaken. Wij onderzoeken diffusiemodellen in het transfer learning-regime, waarbij we hun prestaties onderzoeken op verschillende fine-grained visuele classificatiedatasets. Wij vergelijken deze embeddings met die gegenereerd door concurrerende architecturen en voorafgaande trainingen voor classificatietaken.

English

While many unsupervised learning models focus on one family of tasks, either generative or discriminative, we explore the possibility of a unified representation learner: a model which uses a single pre-training stage to address both families of tasks simultaneously. We identify diffusion models as a prime candidate. Diffusion models have risen to prominence as a state-of-the-art method for image generation, denoising, inpainting, super-resolution, manipulation, etc. Such models involve training a U-Net to iteratively predict and remove noise, and the resulting model can synthesize high fidelity, diverse, novel images. The U-Net architecture, as a convolution-based architecture, generates a diverse set of feature representations in the form of intermediate feature maps. We present our findings that these embeddings are useful beyond the noise prediction task, as they contain discriminative information and can also be leveraged for classification. We explore optimal methods for extracting and using these embeddings for classification tasks, demonstrating promising results on the ImageNet classification task. We find that with careful feature selection and pooling, diffusion models outperform comparable generative-discriminative methods such as BigBiGAN for classification tasks. We investigate diffusion models in the transfer learning regime, examining their performance on several fine-grained visual classification datasets. We compare these embeddings to those generated by competing architectures and pre-trainings for classification tasks.

Diffusiemodellen verslaan GANs bij beeldclassificatie

Diffusion Models Beat GANs on Image Classification

Samenvatting

Support