DreamTeacher: Предобучение базовых моделей для обработки изображений с использованием глубоких генеративных моделей
DreamTeacher: Pretraining Image Backbones with Deep Generative Models
July 14, 2023
Авторы: Daiqing Li, Huan Ling, Amlan Kar, David Acuna, Seung Wook Kim, Karsten Kreis, Antonio Torralba, Sanja Fidler
cs.AI
Аннотация
В данной работе мы представляем фреймворк для обучения представлений признаков с самоконтролем DreamTeacher, который использует генеративные сети для предварительного обучения базовых моделей обработки изображений. Мы предлагаем извлекать знания из обученной генеративной модели и передавать их стандартным базовым моделям обработки изображений, которые были тщательно разработаны для конкретных задач восприятия. Мы исследуем два типа дистилляции знаний: 1) передачу изученных генеративных признаков на целевые базовые модели обработки изображений в качестве альтернативы их предварительному обучению на больших размеченных наборах данных, таких как ImageNet, и 2) передачу меток, полученных от генеративных сетей с использованием голов задач, на логиты целевых базовых моделей. Мы проводим обширный анализ на множестве генеративных моделей, бенчмарках для задач плотного предсказания и различных режимах предварительного обучения. Эмпирически мы обнаруживаем, что наш DreamTeacher значительно превосходит существующие подходы к обучению представлений с самоконтролем по всем направлениям. Предварительное обучение на ImageNet без учителя с использованием DreamTeacher приводит к значительным улучшениям по сравнению с предварительным обучением на классификации ImageNet на последующих наборах данных, демонстрируя генеративные модели, и в частности диффузионные генеративные модели, как перспективный подход к обучению представлений на больших и разнообразных наборах данных без необходимости ручной аннотации.
English
In this work, we introduce a self-supervised feature representation learning
framework DreamTeacher that utilizes generative networks for pre-training
downstream image backbones. We propose to distill knowledge from a trained
generative model into standard image backbones that have been well engineered
for specific perception tasks. We investigate two types of knowledge
distillation: 1) distilling learned generative features onto target image
backbones as an alternative to pretraining these backbones on large labeled
datasets such as ImageNet, and 2) distilling labels obtained from generative
networks with task heads onto logits of target backbones. We perform extensive
analyses on multiple generative models, dense prediction benchmarks, and
several pre-training regimes. We empirically find that our DreamTeacher
significantly outperforms existing self-supervised representation learning
approaches across the board. Unsupervised ImageNet pre-training with
DreamTeacher leads to significant improvements over ImageNet classification
pre-training on downstream datasets, showcasing generative models, and
diffusion generative models specifically, as a promising approach to
representation learning on large, diverse datasets without requiring manual
annotation.