DreamTeacher: Pré-treinamento de Backbones de Imagem com Modelos Generativos Profundos
DreamTeacher: Pretraining Image Backbones with Deep Generative Models
July 14, 2023
Autores: Daiqing Li, Huan Ling, Amlan Kar, David Acuna, Seung Wook Kim, Karsten Kreis, Antonio Torralba, Sanja Fidler
cs.AI
Resumo
Neste trabalho, apresentamos um framework de aprendizado de representação de características auto-supervisionado chamado DreamTeacher, que utiliza redes generativas para pré-treinamento de backbones de imagem em tarefas subsequentes. Propomos destilar conhecimento de um modelo generativo treinado em backbones de imagem padrão que foram bem projetados para tarefas específicas de percepção. Investigamos dois tipos de destilação de conhecimento: 1) destilar características generativas aprendidas em backbones de imagem alvo como uma alternativa ao pré-treinamento desses backbones em grandes conjuntos de dados rotulados, como o ImageNet, e 2) destilar rótulos obtidos de redes generativas com cabeças de tarefa nos logits dos backbones alvo. Realizamos análises extensas em múltiplos modelos generativos, benchmarks de predição densa e diversos regimes de pré-treinamento. Empiricamente, constatamos que nosso DreamTeacher supera significativamente as abordagens existentes de aprendizado de representação auto-supervisionado em todos os aspectos. O pré-treinamento não supervisionado no ImageNet com o DreamTeacher resulta em melhorias significativas em relação ao pré-treinamento de classificação no ImageNet em conjuntos de dados subsequentes, destacando modelos generativos, e especificamente modelos generativos de difusão, como uma abordagem promissora para o aprendizado de representação em grandes e diversos conjuntos de dados sem a necessidade de anotação manual.
English
In this work, we introduce a self-supervised feature representation learning
framework DreamTeacher that utilizes generative networks for pre-training
downstream image backbones. We propose to distill knowledge from a trained
generative model into standard image backbones that have been well engineered
for specific perception tasks. We investigate two types of knowledge
distillation: 1) distilling learned generative features onto target image
backbones as an alternative to pretraining these backbones on large labeled
datasets such as ImageNet, and 2) distilling labels obtained from generative
networks with task heads onto logits of target backbones. We perform extensive
analyses on multiple generative models, dense prediction benchmarks, and
several pre-training regimes. We empirically find that our DreamTeacher
significantly outperforms existing self-supervised representation learning
approaches across the board. Unsupervised ImageNet pre-training with
DreamTeacher leads to significant improvements over ImageNet classification
pre-training on downstream datasets, showcasing generative models, and
diffusion generative models specifically, as a promising approach to
representation learning on large, diverse datasets without requiring manual
annotation.