DreamTeacher : Pré-entraînement des architectures d'images avec des modèles génératifs profonds
DreamTeacher: Pretraining Image Backbones with Deep Generative Models
July 14, 2023
Auteurs: Daiqing Li, Huan Ling, Amlan Kar, David Acuna, Seung Wook Kim, Karsten Kreis, Antonio Torralba, Sanja Fidler
cs.AI
Résumé
Dans ce travail, nous présentons un cadre d'apprentissage de représentation de caractéristiques auto-supervisé, DreamTeacher, qui utilise des réseaux génératifs pour le pré-entraînement de modèles de base pour les images. Nous proposons de distiller les connaissances d'un modèle génératif entraîné vers des modèles de base d'images standard, qui ont été soigneusement conçus pour des tâches de perception spécifiques. Nous explorons deux types de distillation de connaissances : 1) la distillation des caractéristiques génératives apprises vers des modèles de base cibles comme alternative au pré-entraînement de ces modèles sur de grands ensembles de données annotées tels qu'ImageNet, et 2) la distillation des étiquettes obtenues à partir de réseaux génératifs avec des têtes de tâche vers les logits des modèles de base cibles. Nous menons des analyses approfondies sur plusieurs modèles génératifs, des benchmarks de prédiction dense, et divers régimes de pré-entraînement. Nous constatons empiriquement que notre DreamTeacher surpasse significativement les approches existantes d'apprentissage de représentation auto-supervisé dans tous les cas. Le pré-entraînement non supervisé sur ImageNet avec DreamTeacher conduit à des améliorations significatives par rapport au pré-entraînement sur la classification ImageNet pour les ensembles de données en aval, démontrant ainsi que les modèles génératifs, et en particulier les modèles génératifs de diffusion, constituent une approche prometteuse pour l'apprentissage de représentations sur de grands ensembles de données diversifiés sans nécessiter d'annotation manuelle.
English
In this work, we introduce a self-supervised feature representation learning
framework DreamTeacher that utilizes generative networks for pre-training
downstream image backbones. We propose to distill knowledge from a trained
generative model into standard image backbones that have been well engineered
for specific perception tasks. We investigate two types of knowledge
distillation: 1) distilling learned generative features onto target image
backbones as an alternative to pretraining these backbones on large labeled
datasets such as ImageNet, and 2) distilling labels obtained from generative
networks with task heads onto logits of target backbones. We perform extensive
analyses on multiple generative models, dense prediction benchmarks, and
several pre-training regimes. We empirically find that our DreamTeacher
significantly outperforms existing self-supervised representation learning
approaches across the board. Unsupervised ImageNet pre-training with
DreamTeacher leads to significant improvements over ImageNet classification
pre-training on downstream datasets, showcasing generative models, and
diffusion generative models specifically, as a promising approach to
representation learning on large, diverse datasets without requiring manual
annotation.