ChatPaper.aiChatPaper

DreamTeacher: Preentrenamiento de Backbones de Imágenes con Modelos Generativos Profundos

DreamTeacher: Pretraining Image Backbones with Deep Generative Models

July 14, 2023
Autores: Daiqing Li, Huan Ling, Amlan Kar, David Acuna, Seung Wook Kim, Karsten Kreis, Antonio Torralba, Sanja Fidler
cs.AI

Resumen

En este trabajo, presentamos un marco de aprendizaje de representación de características auto-supervisado llamado DreamTeacher que utiliza redes generativas para el pre-entrenamiento de arquitecturas de procesamiento de imágenes destinadas a tareas posteriores. Proponemos destilar conocimiento de un modelo generativo entrenado en arquitecturas de procesamiento de imágenes estándar que han sido cuidadosamente diseñadas para tareas específicas de percepción. Investigamos dos tipos de destilación de conocimiento: 1) destilar características generativas aprendidas en arquitecturas de procesamiento de imágenes objetivo como una alternativa al pre-entrenamiento de estas arquitecturas en grandes conjuntos de datos etiquetados como ImageNet, y 2) destilar etiquetas obtenidas de redes generativas con cabezales de tarea en los logits de las arquitecturas objetivo. Realizamos análisis exhaustivos en múltiples modelos generativos, benchmarks de predicción densa y varios regímenes de pre-entrenamiento. Empíricamente, encontramos que nuestro DreamTeacher supera significativamente los enfoques existentes de aprendizaje de representación auto-supervisado en todos los aspectos. El pre-entrenamiento no supervisado en ImageNet con DreamTeacher conduce a mejoras significativas sobre el pre-entrenamiento de clasificación en ImageNet en conjuntos de datos posteriores, destacando a los modelos generativos, y específicamente a los modelos generativos de difusión, como un enfoque prometedor para el aprendizaje de representación en grandes y diversos conjuntos de datos sin requerir anotación manual.
English
In this work, we introduce a self-supervised feature representation learning framework DreamTeacher that utilizes generative networks for pre-training downstream image backbones. We propose to distill knowledge from a trained generative model into standard image backbones that have been well engineered for specific perception tasks. We investigate two types of knowledge distillation: 1) distilling learned generative features onto target image backbones as an alternative to pretraining these backbones on large labeled datasets such as ImageNet, and 2) distilling labels obtained from generative networks with task heads onto logits of target backbones. We perform extensive analyses on multiple generative models, dense prediction benchmarks, and several pre-training regimes. We empirically find that our DreamTeacher significantly outperforms existing self-supervised representation learning approaches across the board. Unsupervised ImageNet pre-training with DreamTeacher leads to significant improvements over ImageNet classification pre-training on downstream datasets, showcasing generative models, and diffusion generative models specifically, as a promising approach to representation learning on large, diverse datasets without requiring manual annotation.
PDF200December 15, 2024