DreamTeacher: Vortraining von Bild-Backbones mit tiefen generativen Modellen
DreamTeacher: Pretraining Image Backbones with Deep Generative Models
July 14, 2023
Autoren: Daiqing Li, Huan Ling, Amlan Kar, David Acuna, Seung Wook Kim, Karsten Kreis, Antonio Torralba, Sanja Fidler
cs.AI
Zusammenfassung
In dieser Arbeit stellen wir ein selbstüberwachtes Framework zur Merkmalsrepräsentationslernung namens DreamTeacher vor, das generative Netzwerke für das Pre-Training von nachgeschalteten Bild-Backbones nutzt. Wir schlagen vor, Wissen aus einem trainierten generativen Modell in standardmäßige Bild-Backbones zu destillieren, die speziell für bestimmte Wahrnehmungsaufgaben entwickelt wurden. Wir untersuchen zwei Arten von Wissensdestillation: 1) die Destillation gelerntener generativer Merkmale auf Ziel-Bild-Backbones als Alternative zum Pre-Training dieser Backbones auf großen, gelabelten Datensätzen wie ImageNet, und 2) die Destillation von Labels, die aus generativen Netzwerken mit Aufgabenköpfen gewonnen werden, auf die Logits der Ziel-Backbones. Wir führen umfangreiche Analysen an mehreren generativen Modellen, Benchmarks für dichte Vorhersagen und verschiedenen Pre-Training-Regimen durch. Empirisch stellen wir fest, dass unser DreamTeacher bestehende Ansätze des selbstüberwachten Repräsentationslernens durchweg deutlich übertrifft. Unüberwachtes ImageNet-Pre-Training mit DreamTeacher führt zu signifikanten Verbesserungen gegenüber ImageNet-Klassifikations-Pre-Training auf nachgeschalteten Datensätzen, was generative Modelle, und insbesondere Diffusionsgenerative Modelle, als vielversprechenden Ansatz für das Repräsentationslernen auf großen, diversen Datensätzen ohne manuelle Annotation zeigt.
English
In this work, we introduce a self-supervised feature representation learning
framework DreamTeacher that utilizes generative networks for pre-training
downstream image backbones. We propose to distill knowledge from a trained
generative model into standard image backbones that have been well engineered
for specific perception tasks. We investigate two types of knowledge
distillation: 1) distilling learned generative features onto target image
backbones as an alternative to pretraining these backbones on large labeled
datasets such as ImageNet, and 2) distilling labels obtained from generative
networks with task heads onto logits of target backbones. We perform extensive
analyses on multiple generative models, dense prediction benchmarks, and
several pre-training regimes. We empirically find that our DreamTeacher
significantly outperforms existing self-supervised representation learning
approaches across the board. Unsupervised ImageNet pre-training with
DreamTeacher leads to significant improvements over ImageNet classification
pre-training on downstream datasets, showcasing generative models, and
diffusion generative models specifically, as a promising approach to
representation learning on large, diverse datasets without requiring manual
annotation.