DreamTeacher: Предобучение базовых моделей для обработки изображений с использованием глубоких генеративных моделей

Аннотация

В данной работе мы представляем фреймворк для обучения представлений признаков с самоконтролем DreamTeacher, который использует генеративные сети для предварительного обучения базовых моделей обработки изображений. Мы предлагаем извлекать знания из обученной генеративной модели и передавать их стандартным базовым моделям обработки изображений, которые были тщательно разработаны для конкретных задач восприятия. Мы исследуем два типа дистилляции знаний: 1) передачу изученных генеративных признаков на целевые базовые модели обработки изображений в качестве альтернативы их предварительному обучению на больших размеченных наборах данных, таких как ImageNet, и 2) передачу меток, полученных от генеративных сетей с использованием голов задач, на логиты целевых базовых моделей. Мы проводим обширный анализ на множестве генеративных моделей, бенчмарках для задач плотного предсказания и различных режимах предварительного обучения. Эмпирически мы обнаруживаем, что наш DreamTeacher значительно превосходит существующие подходы к обучению представлений с самоконтролем по всем направлениям. Предварительное обучение на ImageNet без учителя с использованием DreamTeacher приводит к значительным улучшениям по сравнению с предварительным обучением на классификации ImageNet на последующих наборах данных, демонстрируя генеративные модели, и в частности диффузионные генеративные модели, как перспективный подход к обучению представлений на больших и разнообразных наборах данных без необходимости ручной аннотации.

English

In this work, we introduce a self-supervised feature representation learning framework DreamTeacher that utilizes generative networks for pre-training downstream image backbones. We propose to distill knowledge from a trained generative model into standard image backbones that have been well engineered for specific perception tasks. We investigate two types of knowledge distillation: 1) distilling learned generative features onto target image backbones as an alternative to pretraining these backbones on large labeled datasets such as ImageNet, and 2) distilling labels obtained from generative networks with task heads onto logits of target backbones. We perform extensive analyses on multiple generative models, dense prediction benchmarks, and several pre-training regimes. We empirically find that our DreamTeacher significantly outperforms existing self-supervised representation learning approaches across the board. Unsupervised ImageNet pre-training with DreamTeacher leads to significant improvements over ImageNet classification pre-training on downstream datasets, showcasing generative models, and diffusion generative models specifically, as a promising approach to representation learning on large, diverse datasets without requiring manual annotation.

DreamTeacher: Предобучение базовых моделей для обработки изображений с использованием глубоких генеративных моделей

DreamTeacher: Pretraining Image Backbones with Deep Generative Models

Аннотация

Support