Modelos de Difusão Superam GANs na Classificação de Imagens

Resumo

Enquanto muitos modelos de aprendizado não supervisionado se concentram em uma família de tarefas, seja gerativa ou discriminativa, exploramos a possibilidade de um modelo unificado de aprendizado de representação: um modelo que utiliza uma única etapa de pré-treinamento para abordar ambas as famílias de tarefas simultaneamente. Identificamos os modelos de difusão como um candidato ideal. Os modelos de difusão ganharam destaque como um método de ponta para geração de imagens, remoção de ruído, inpainting, super-resolução, manipulação, etc. Tais modelos envolvem o treinamento de uma U-Net para prever e remover ruído iterativamente, e o modelo resultante pode sintetizar imagens novas, diversas e de alta fidelidade. A arquitetura U-Net, como uma arquitetura baseada em convoluções, gera um conjunto diversificado de representações de características na forma de mapas de características intermediários. Apresentamos nossas descobertas de que esses embeddings são úteis além da tarefa de previsão de ruído, pois contêm informações discriminativas e também podem ser aproveitados para classificação. Exploramos métodos ótimos para extrair e usar esses embeddings em tarefas de classificação, demonstrando resultados promissores na tarefa de classificação do ImageNet. Descobrimos que, com uma seleção e pooling cuidadosos de características, os modelos de difusão superam métodos gerativo-discriminativos comparáveis, como o BigBiGAN, em tarefas de classificação. Investigamos os modelos de difusão no regime de transferência de aprendizado, examinando seu desempenho em vários conjuntos de dados de classificação visual de alta granularidade. Comparamos esses embeddings aos gerados por arquiteturas e pré-treinamentos concorrentes para tarefas de classificação.

English

While many unsupervised learning models focus on one family of tasks, either generative or discriminative, we explore the possibility of a unified representation learner: a model which uses a single pre-training stage to address both families of tasks simultaneously. We identify diffusion models as a prime candidate. Diffusion models have risen to prominence as a state-of-the-art method for image generation, denoising, inpainting, super-resolution, manipulation, etc. Such models involve training a U-Net to iteratively predict and remove noise, and the resulting model can synthesize high fidelity, diverse, novel images. The U-Net architecture, as a convolution-based architecture, generates a diverse set of feature representations in the form of intermediate feature maps. We present our findings that these embeddings are useful beyond the noise prediction task, as they contain discriminative information and can also be leveraged for classification. We explore optimal methods for extracting and using these embeddings for classification tasks, demonstrating promising results on the ImageNet classification task. We find that with careful feature selection and pooling, diffusion models outperform comparable generative-discriminative methods such as BigBiGAN for classification tasks. We investigate diffusion models in the transfer learning regime, examining their performance on several fine-grained visual classification datasets. We compare these embeddings to those generated by competing architectures and pre-trainings for classification tasks.

Modelos de Difusão Superam GANs na Classificação de Imagens

Diffusion Models Beat GANs on Image Classification

Resumo

Support