DreamTeacher: Pretraining van beeldbackbones met diepe generatieve modellen
DreamTeacher: Pretraining Image Backbones with Deep Generative Models
July 14, 2023
Auteurs: Daiqing Li, Huan Ling, Amlan Kar, David Acuna, Seung Wook Kim, Karsten Kreis, Antonio Torralba, Sanja Fidler
cs.AI
Samenvatting
In dit werk introduceren we een zelfgesuperviseerd framework voor het leren van kenmerkrepresentaties, DreamTeacher, dat generatieve netwerken gebruikt om downstream beeldbackbones voor te trainen. We stellen voor om kennis te destilleren uit een getraind generatief model naar standaard beeldbackbones die goed zijn ontworpen voor specifieke perceptietaken. We onderzoeken twee soorten kennisdestillatie: 1) het destilleren van geleerde generatieve kenmerken naar doelbeeldbackbones als alternatief voor het vooraf trainen van deze backbones op grote gelabelde datasets zoals ImageNet, en 2) het destilleren van labels verkregen uit generatieve netwerken met taakkoppen naar de logits van doelbackbones. We voeren uitgebreide analyses uit op meerdere generatieve modellen, benchmarks voor dichte voorspellingen, en verschillende voorafgaande trainingsregimes. Empirisch vinden we dat onze DreamTeacher aanzienlijk beter presteert dan bestaande zelfgesuperviseerde benaderingen voor het leren van representaties. Ongecontroleerde voorafgaande training op ImageNet met DreamTeacher leidt tot significante verbeteringen ten opzichte van voorafgaande training op ImageNet-classificatie op downstream datasets, wat generatieve modellen, en specifiek diffusiegeneratieve modellen, toont als een veelbelovende benadering voor het leren van representaties op grote, diverse datasets zonder handmatige annotatie.
English
In this work, we introduce a self-supervised feature representation learning
framework DreamTeacher that utilizes generative networks for pre-training
downstream image backbones. We propose to distill knowledge from a trained
generative model into standard image backbones that have been well engineered
for specific perception tasks. We investigate two types of knowledge
distillation: 1) distilling learned generative features onto target image
backbones as an alternative to pretraining these backbones on large labeled
datasets such as ImageNet, and 2) distilling labels obtained from generative
networks with task heads onto logits of target backbones. We perform extensive
analyses on multiple generative models, dense prediction benchmarks, and
several pre-training regimes. We empirically find that our DreamTeacher
significantly outperforms existing self-supervised representation learning
approaches across the board. Unsupervised ImageNet pre-training with
DreamTeacher leads to significant improvements over ImageNet classification
pre-training on downstream datasets, showcasing generative models, and
diffusion generative models specifically, as a promising approach to
representation learning on large, diverse datasets without requiring manual
annotation.