Диффузионные модели превосходят GAN в классификации изображений
Diffusion Models Beat GANs on Image Classification
July 17, 2023
Авторы: Soumik Mukhopadhyay, Matthew Gwilliam, Vatsal Agarwal, Namitha Padmanabhan, Archana Swaminathan, Srinidhi Hegde, Tianyi Zhou, Abhinav Shrivastava
cs.AI
Аннотация
Хотя многие модели обучения без учителя сосредоточены на одном семействе задач — либо генеративных, либо дискриминативных, — мы исследуем возможность создания унифицированного модели представления: модели, которая использует единый этап предварительного обучения для решения обеих семейств задач одновременно. Мы выделяем диффузионные модели как основной кандидат. Диффузионные модели стали передовым методом для задач генерации изображений, удаления шума, восстановления, повышения разрешения, манипуляции и т.д. Такие модели предполагают обучение U-Net для итеративного предсказания и удаления шума, в результате чего модель может синтезировать изображения высокой точности, разнообразия и новизны. Архитектура U-Net, будучи основанной на свертках, генерирует разнообразный набор представлений признаков в виде промежуточных карт признаков. Мы представляем наши выводы о том, что эти эмбеддинги полезны не только для задачи предсказания шума, так как они содержат дискриминативную информацию и также могут быть использованы для классификации. Мы исследуем оптимальные методы извлечения и использования этих эмбеддингов для задач классификации, демонстрируя перспективные результаты на задаче классификации ImageNet. Мы обнаруживаем, что при тщательном отборе признаков и пулинге диффузионные модели превосходят сопоставимые генеративно-дискриминативные методы, такие как BigBiGAN, в задачах классификации. Мы исследуем диффузионные модели в режиме трансферного обучения, оценивая их производительность на нескольких наборах данных для детальной визуальной классификации. Мы сравниваем эти эмбеддинги с теми, которые генерируются конкурирующими архитектурами и методами предварительного обучения для задач классификации.
English
While many unsupervised learning models focus on one family of tasks, either
generative or discriminative, we explore the possibility of a unified
representation learner: a model which uses a single pre-training stage to
address both families of tasks simultaneously. We identify diffusion models as
a prime candidate. Diffusion models have risen to prominence as a
state-of-the-art method for image generation, denoising, inpainting,
super-resolution, manipulation, etc. Such models involve training a U-Net to
iteratively predict and remove noise, and the resulting model can synthesize
high fidelity, diverse, novel images. The U-Net architecture, as a
convolution-based architecture, generates a diverse set of feature
representations in the form of intermediate feature maps. We present our
findings that these embeddings are useful beyond the noise prediction task, as
they contain discriminative information and can also be leveraged for
classification. We explore optimal methods for extracting and using these
embeddings for classification tasks, demonstrating promising results on the
ImageNet classification task. We find that with careful feature selection and
pooling, diffusion models outperform comparable generative-discriminative
methods such as BigBiGAN for classification tasks. We investigate diffusion
models in the transfer learning regime, examining their performance on several
fine-grained visual classification datasets. We compare these embeddings to
those generated by competing architectures and pre-trainings for classification
tasks.