Los Modelos de Difusión Superan a los GANs en Clasificación de Imágenes
Diffusion Models Beat GANs on Image Classification
July 17, 2023
Autores: Soumik Mukhopadhyay, Matthew Gwilliam, Vatsal Agarwal, Namitha Padmanabhan, Archana Swaminathan, Srinidhi Hegde, Tianyi Zhou, Abhinav Shrivastava
cs.AI
Resumen
Mientras que muchos modelos de aprendizaje no supervisado se centran en una sola familia de tareas, ya sean generativas o discriminativas, exploramos la posibilidad de un modelo unificado de aprendizaje de representaciones: un modelo que utiliza una única etapa de preentrenamiento para abordar ambas familias de tareas simultáneamente. Identificamos a los modelos de difusión como un candidato principal. Los modelos de difusión han ganado prominencia como un método de vanguardia para la generación de imágenes, eliminación de ruido, inpainting, super-resolución, manipulación, etc. Dichos modelos implican entrenar una U-Net para predecir y eliminar ruido de manera iterativa, y el modelo resultante puede sintetizar imágenes novedosas, diversas y de alta fidelidad. La arquitectura U-Net, como una arquitectura basada en convoluciones, genera un conjunto diverso de representaciones de características en forma de mapas de características intermedios. Presentamos nuestros hallazgos de que estas incrustaciones son útiles más allá de la tarea de predicción de ruido, ya que contienen información discriminativa y también pueden aprovecharse para la clasificación. Exploramos métodos óptimos para extraer y utilizar estas incrustaciones en tareas de clasificación, demostrando resultados prometedores en la tarea de clasificación de ImageNet. Encontramos que, con una cuidadosa selección y agrupación de características, los modelos de difusión superan a métodos generativo-discriminativos comparables, como BigBiGAN, en tareas de clasificación. Investigamos los modelos de difusión en el régimen de aprendizaje por transferencia, examinando su rendimiento en varios conjuntos de datos de clasificación visual de grano fino. Comparamos estas incrustaciones con las generadas por arquitecturas y preentrenamientos competidores en tareas de clasificación.
English
While many unsupervised learning models focus on one family of tasks, either
generative or discriminative, we explore the possibility of a unified
representation learner: a model which uses a single pre-training stage to
address both families of tasks simultaneously. We identify diffusion models as
a prime candidate. Diffusion models have risen to prominence as a
state-of-the-art method for image generation, denoising, inpainting,
super-resolution, manipulation, etc. Such models involve training a U-Net to
iteratively predict and remove noise, and the resulting model can synthesize
high fidelity, diverse, novel images. The U-Net architecture, as a
convolution-based architecture, generates a diverse set of feature
representations in the form of intermediate feature maps. We present our
findings that these embeddings are useful beyond the noise prediction task, as
they contain discriminative information and can also be leveraged for
classification. We explore optimal methods for extracting and using these
embeddings for classification tasks, demonstrating promising results on the
ImageNet classification task. We find that with careful feature selection and
pooling, diffusion models outperform comparable generative-discriminative
methods such as BigBiGAN for classification tasks. We investigate diffusion
models in the transfer learning regime, examining their performance on several
fine-grained visual classification datasets. We compare these embeddings to
those generated by competing architectures and pre-trainings for classification
tasks.