DreamTeacher: Pretraining van beeldbackbones met diepe generatieve modellen

Samenvatting

In dit werk introduceren we een zelfgesuperviseerd framework voor het leren van kenmerkrepresentaties, DreamTeacher, dat generatieve netwerken gebruikt om downstream beeldbackbones voor te trainen. We stellen voor om kennis te destilleren uit een getraind generatief model naar standaard beeldbackbones die goed zijn ontworpen voor specifieke perceptietaken. We onderzoeken twee soorten kennisdestillatie: 1) het destilleren van geleerde generatieve kenmerken naar doelbeeldbackbones als alternatief voor het vooraf trainen van deze backbones op grote gelabelde datasets zoals ImageNet, en 2) het destilleren van labels verkregen uit generatieve netwerken met taakkoppen naar de logits van doelbackbones. We voeren uitgebreide analyses uit op meerdere generatieve modellen, benchmarks voor dichte voorspellingen, en verschillende voorafgaande trainingsregimes. Empirisch vinden we dat onze DreamTeacher aanzienlijk beter presteert dan bestaande zelfgesuperviseerde benaderingen voor het leren van representaties. Ongecontroleerde voorafgaande training op ImageNet met DreamTeacher leidt tot significante verbeteringen ten opzichte van voorafgaande training op ImageNet-classificatie op downstream datasets, wat generatieve modellen, en specifiek diffusiegeneratieve modellen, toont als een veelbelovende benadering voor het leren van representaties op grote, diverse datasets zonder handmatige annotatie.

English

In this work, we introduce a self-supervised feature representation learning framework DreamTeacher that utilizes generative networks for pre-training downstream image backbones. We propose to distill knowledge from a trained generative model into standard image backbones that have been well engineered for specific perception tasks. We investigate two types of knowledge distillation: 1) distilling learned generative features onto target image backbones as an alternative to pretraining these backbones on large labeled datasets such as ImageNet, and 2) distilling labels obtained from generative networks with task heads onto logits of target backbones. We perform extensive analyses on multiple generative models, dense prediction benchmarks, and several pre-training regimes. We empirically find that our DreamTeacher significantly outperforms existing self-supervised representation learning approaches across the board. Unsupervised ImageNet pre-training with DreamTeacher leads to significant improvements over ImageNet classification pre-training on downstream datasets, showcasing generative models, and diffusion generative models specifically, as a promising approach to representation learning on large, diverse datasets without requiring manual annotation.

DreamTeacher: Pretraining van beeldbackbones met diepe generatieve modellen

DreamTeacher: Pretraining Image Backbones with Deep Generative Models

Samenvatting

Support