DreamTeacher : Pré-entraînement des architectures d'images avec des modèles génératifs profonds

Résumé

Dans ce travail, nous présentons un cadre d'apprentissage de représentation de caractéristiques auto-supervisé, DreamTeacher, qui utilise des réseaux génératifs pour le pré-entraînement de modèles de base pour les images. Nous proposons de distiller les connaissances d'un modèle génératif entraîné vers des modèles de base d'images standard, qui ont été soigneusement conçus pour des tâches de perception spécifiques. Nous explorons deux types de distillation de connaissances : 1) la distillation des caractéristiques génératives apprises vers des modèles de base cibles comme alternative au pré-entraînement de ces modèles sur de grands ensembles de données annotées tels qu'ImageNet, et 2) la distillation des étiquettes obtenues à partir de réseaux génératifs avec des têtes de tâche vers les logits des modèles de base cibles. Nous menons des analyses approfondies sur plusieurs modèles génératifs, des benchmarks de prédiction dense, et divers régimes de pré-entraînement. Nous constatons empiriquement que notre DreamTeacher surpasse significativement les approches existantes d'apprentissage de représentation auto-supervisé dans tous les cas. Le pré-entraînement non supervisé sur ImageNet avec DreamTeacher conduit à des améliorations significatives par rapport au pré-entraînement sur la classification ImageNet pour les ensembles de données en aval, démontrant ainsi que les modèles génératifs, et en particulier les modèles génératifs de diffusion, constituent une approche prometteuse pour l'apprentissage de représentations sur de grands ensembles de données diversifiés sans nécessiter d'annotation manuelle.

English

In this work, we introduce a self-supervised feature representation learning framework DreamTeacher that utilizes generative networks for pre-training downstream image backbones. We propose to distill knowledge from a trained generative model into standard image backbones that have been well engineered for specific perception tasks. We investigate two types of knowledge distillation: 1) distilling learned generative features onto target image backbones as an alternative to pretraining these backbones on large labeled datasets such as ImageNet, and 2) distilling labels obtained from generative networks with task heads onto logits of target backbones. We perform extensive analyses on multiple generative models, dense prediction benchmarks, and several pre-training regimes. We empirically find that our DreamTeacher significantly outperforms existing self-supervised representation learning approaches across the board. Unsupervised ImageNet pre-training with DreamTeacher leads to significant improvements over ImageNet classification pre-training on downstream datasets, showcasing generative models, and diffusion generative models specifically, as a promising approach to representation learning on large, diverse datasets without requiring manual annotation.

DreamTeacher : Pré-entraînement des architectures d'images avec des modèles génératifs profonds

DreamTeacher: Pretraining Image Backbones with Deep Generative Models

Résumé

Support