DreamTeacher: Pre-addestramento di Backbone di Immagini con Modelli Generativi Profondi
DreamTeacher: Pretraining Image Backbones with Deep Generative Models
July 14, 2023
Autori: Daiqing Li, Huan Ling, Amlan Kar, David Acuna, Seung Wook Kim, Karsten Kreis, Antonio Torralba, Sanja Fidler
cs.AI
Abstract
In questo lavoro, introduciamo un framework di apprendimento di rappresentazioni di caratteristiche auto-supervisionato, denominato DreamTeacher, che utilizza reti generative per il pre-addestramento di backbone di immagini per task downstream. Proponiamo di distillare la conoscenza da un modello generativo addestrato in backbone di immagini standard, che sono stati ben progettati per specifici task di percezione. Investigiamo due tipi di distillazione della conoscenza: 1) distillare le caratteristiche generative apprese nei backbone di immagini target come alternativa al pre-addestramento di questi backbone su grandi dataset etichettati come ImageNet, e 2) distillare etichette ottenute da reti generative con task head nei logit dei backbone target. Eseguiamo analisi approfondite su molteplici modelli generativi, benchmark di predizione densa e diversi regimi di pre-addestramento. Empiricamente, troviamo che il nostro DreamTeacher supera significativamente gli approcci esistenti di apprendimento di rappresentazioni auto-supervisionato in modo uniforme. Il pre-addestramento non supervisionato su ImageNet con DreamTeacher porta a miglioramenti significativi rispetto al pre-addestramento su classificazione ImageNet su dataset downstream, dimostrando che i modelli generativi, e in particolare i modelli generativi di diffusione, rappresentano un approccio promettente per l'apprendimento di rappresentazioni su dataset grandi e diversificati senza richiedere annotazioni manuali.
English
In this work, we introduce a self-supervised feature representation learning
framework DreamTeacher that utilizes generative networks for pre-training
downstream image backbones. We propose to distill knowledge from a trained
generative model into standard image backbones that have been well engineered
for specific perception tasks. We investigate two types of knowledge
distillation: 1) distilling learned generative features onto target image
backbones as an alternative to pretraining these backbones on large labeled
datasets such as ImageNet, and 2) distilling labels obtained from generative
networks with task heads onto logits of target backbones. We perform extensive
analyses on multiple generative models, dense prediction benchmarks, and
several pre-training regimes. We empirically find that our DreamTeacher
significantly outperforms existing self-supervised representation learning
approaches across the board. Unsupervised ImageNet pre-training with
DreamTeacher leads to significant improvements over ImageNet classification
pre-training on downstream datasets, showcasing generative models, and
diffusion generative models specifically, as a promising approach to
representation learning on large, diverse datasets without requiring manual
annotation.