DreamTeacher: Preentrenamiento de Backbones de Imágenes con Modelos Generativos Profundos
DreamTeacher: Pretraining Image Backbones with Deep Generative Models
July 14, 2023
Autores: Daiqing Li, Huan Ling, Amlan Kar, David Acuna, Seung Wook Kim, Karsten Kreis, Antonio Torralba, Sanja Fidler
cs.AI
Resumen
En este trabajo, presentamos un marco de aprendizaje de representación de características auto-supervisado llamado DreamTeacher que utiliza redes generativas para el pre-entrenamiento de arquitecturas de procesamiento de imágenes destinadas a tareas posteriores. Proponemos destilar conocimiento de un modelo generativo entrenado en arquitecturas de procesamiento de imágenes estándar que han sido cuidadosamente diseñadas para tareas específicas de percepción. Investigamos dos tipos de destilación de conocimiento: 1) destilar características generativas aprendidas en arquitecturas de procesamiento de imágenes objetivo como una alternativa al pre-entrenamiento de estas arquitecturas en grandes conjuntos de datos etiquetados como ImageNet, y 2) destilar etiquetas obtenidas de redes generativas con cabezales de tarea en los logits de las arquitecturas objetivo. Realizamos análisis exhaustivos en múltiples modelos generativos, benchmarks de predicción densa y varios regímenes de pre-entrenamiento. Empíricamente, encontramos que nuestro DreamTeacher supera significativamente los enfoques existentes de aprendizaje de representación auto-supervisado en todos los aspectos. El pre-entrenamiento no supervisado en ImageNet con DreamTeacher conduce a mejoras significativas sobre el pre-entrenamiento de clasificación en ImageNet en conjuntos de datos posteriores, destacando a los modelos generativos, y específicamente a los modelos generativos de difusión, como un enfoque prometedor para el aprendizaje de representación en grandes y diversos conjuntos de datos sin requerir anotación manual.
English
In this work, we introduce a self-supervised feature representation learning
framework DreamTeacher that utilizes generative networks for pre-training
downstream image backbones. We propose to distill knowledge from a trained
generative model into standard image backbones that have been well engineered
for specific perception tasks. We investigate two types of knowledge
distillation: 1) distilling learned generative features onto target image
backbones as an alternative to pretraining these backbones on large labeled
datasets such as ImageNet, and 2) distilling labels obtained from generative
networks with task heads onto logits of target backbones. We perform extensive
analyses on multiple generative models, dense prediction benchmarks, and
several pre-training regimes. We empirically find that our DreamTeacher
significantly outperforms existing self-supervised representation learning
approaches across the board. Unsupervised ImageNet pre-training with
DreamTeacher leads to significant improvements over ImageNet classification
pre-training on downstream datasets, showcasing generative models, and
diffusion generative models specifically, as a promising approach to
representation learning on large, diverse datasets without requiring manual
annotation.