ChatPaper.aiChatPaper

DreamTeacher: Vortraining von Bild-Backbones mit tiefen generativen Modellen

DreamTeacher: Pretraining Image Backbones with Deep Generative Models

July 14, 2023
Autoren: Daiqing Li, Huan Ling, Amlan Kar, David Acuna, Seung Wook Kim, Karsten Kreis, Antonio Torralba, Sanja Fidler
cs.AI

Zusammenfassung

In dieser Arbeit stellen wir ein selbstüberwachtes Framework zur Merkmalsrepräsentationslernung namens DreamTeacher vor, das generative Netzwerke für das Pre-Training von nachgeschalteten Bild-Backbones nutzt. Wir schlagen vor, Wissen aus einem trainierten generativen Modell in standardmäßige Bild-Backbones zu destillieren, die speziell für bestimmte Wahrnehmungsaufgaben entwickelt wurden. Wir untersuchen zwei Arten von Wissensdestillation: 1) die Destillation gelerntener generativer Merkmale auf Ziel-Bild-Backbones als Alternative zum Pre-Training dieser Backbones auf großen, gelabelten Datensätzen wie ImageNet, und 2) die Destillation von Labels, die aus generativen Netzwerken mit Aufgabenköpfen gewonnen werden, auf die Logits der Ziel-Backbones. Wir führen umfangreiche Analysen an mehreren generativen Modellen, Benchmarks für dichte Vorhersagen und verschiedenen Pre-Training-Regimen durch. Empirisch stellen wir fest, dass unser DreamTeacher bestehende Ansätze des selbstüberwachten Repräsentationslernens durchweg deutlich übertrifft. Unüberwachtes ImageNet-Pre-Training mit DreamTeacher führt zu signifikanten Verbesserungen gegenüber ImageNet-Klassifikations-Pre-Training auf nachgeschalteten Datensätzen, was generative Modelle, und insbesondere Diffusionsgenerative Modelle, als vielversprechenden Ansatz für das Repräsentationslernen auf großen, diversen Datensätzen ohne manuelle Annotation zeigt.
English
In this work, we introduce a self-supervised feature representation learning framework DreamTeacher that utilizes generative networks for pre-training downstream image backbones. We propose to distill knowledge from a trained generative model into standard image backbones that have been well engineered for specific perception tasks. We investigate two types of knowledge distillation: 1) distilling learned generative features onto target image backbones as an alternative to pretraining these backbones on large labeled datasets such as ImageNet, and 2) distilling labels obtained from generative networks with task heads onto logits of target backbones. We perform extensive analyses on multiple generative models, dense prediction benchmarks, and several pre-training regimes. We empirically find that our DreamTeacher significantly outperforms existing self-supervised representation learning approaches across the board. Unsupervised ImageNet pre-training with DreamTeacher leads to significant improvements over ImageNet classification pre-training on downstream datasets, showcasing generative models, and diffusion generative models specifically, as a promising approach to representation learning on large, diverse datasets without requiring manual annotation.
PDF200December 15, 2024