DreamTeacher: Pré-treinamento de Backbones de Imagem com Modelos Generativos Profundos

Resumo

Neste trabalho, apresentamos um framework de aprendizado de representação de características auto-supervisionado chamado DreamTeacher, que utiliza redes generativas para pré-treinamento de backbones de imagem em tarefas subsequentes. Propomos destilar conhecimento de um modelo generativo treinado em backbones de imagem padrão que foram bem projetados para tarefas específicas de percepção. Investigamos dois tipos de destilação de conhecimento: 1) destilar características generativas aprendidas em backbones de imagem alvo como uma alternativa ao pré-treinamento desses backbones em grandes conjuntos de dados rotulados, como o ImageNet, e 2) destilar rótulos obtidos de redes generativas com cabeças de tarefa nos logits dos backbones alvo. Realizamos análises extensas em múltiplos modelos generativos, benchmarks de predição densa e diversos regimes de pré-treinamento. Empiricamente, constatamos que nosso DreamTeacher supera significativamente as abordagens existentes de aprendizado de representação auto-supervisionado em todos os aspectos. O pré-treinamento não supervisionado no ImageNet com o DreamTeacher resulta em melhorias significativas em relação ao pré-treinamento de classificação no ImageNet em conjuntos de dados subsequentes, destacando modelos generativos, e especificamente modelos generativos de difusão, como uma abordagem promissora para o aprendizado de representação em grandes e diversos conjuntos de dados sem a necessidade de anotação manual.

English

In this work, we introduce a self-supervised feature representation learning framework DreamTeacher that utilizes generative networks for pre-training downstream image backbones. We propose to distill knowledge from a trained generative model into standard image backbones that have been well engineered for specific perception tasks. We investigate two types of knowledge distillation: 1) distilling learned generative features onto target image backbones as an alternative to pretraining these backbones on large labeled datasets such as ImageNet, and 2) distilling labels obtained from generative networks with task heads onto logits of target backbones. We perform extensive analyses on multiple generative models, dense prediction benchmarks, and several pre-training regimes. We empirically find that our DreamTeacher significantly outperforms existing self-supervised representation learning approaches across the board. Unsupervised ImageNet pre-training with DreamTeacher leads to significant improvements over ImageNet classification pre-training on downstream datasets, showcasing generative models, and diffusion generative models specifically, as a promising approach to representation learning on large, diverse datasets without requiring manual annotation.

DreamTeacher: Pré-treinamento de Backbones de Imagem com Modelos Generativos Profundos

DreamTeacher: Pretraining Image Backbones with Deep Generative Models

Resumo

Support