DreamTeacher: Pre-addestramento di Backbone di Immagini con Modelli Generativi Profondi

Abstract

In questo lavoro, introduciamo un framework di apprendimento di rappresentazioni di caratteristiche auto-supervisionato, denominato DreamTeacher, che utilizza reti generative per il pre-addestramento di backbone di immagini per task downstream. Proponiamo di distillare la conoscenza da un modello generativo addestrato in backbone di immagini standard, che sono stati ben progettati per specifici task di percezione. Investigiamo due tipi di distillazione della conoscenza: 1) distillare le caratteristiche generative apprese nei backbone di immagini target come alternativa al pre-addestramento di questi backbone su grandi dataset etichettati come ImageNet, e 2) distillare etichette ottenute da reti generative con task head nei logit dei backbone target. Eseguiamo analisi approfondite su molteplici modelli generativi, benchmark di predizione densa e diversi regimi di pre-addestramento. Empiricamente, troviamo che il nostro DreamTeacher supera significativamente gli approcci esistenti di apprendimento di rappresentazioni auto-supervisionato in modo uniforme. Il pre-addestramento non supervisionato su ImageNet con DreamTeacher porta a miglioramenti significativi rispetto al pre-addestramento su classificazione ImageNet su dataset downstream, dimostrando che i modelli generativi, e in particolare i modelli generativi di diffusione, rappresentano un approccio promettente per l'apprendimento di rappresentazioni su dataset grandi e diversificati senza richiedere annotazioni manuali.

English

In this work, we introduce a self-supervised feature representation learning framework DreamTeacher that utilizes generative networks for pre-training downstream image backbones. We propose to distill knowledge from a trained generative model into standard image backbones that have been well engineered for specific perception tasks. We investigate two types of knowledge distillation: 1) distilling learned generative features onto target image backbones as an alternative to pretraining these backbones on large labeled datasets such as ImageNet, and 2) distilling labels obtained from generative networks with task heads onto logits of target backbones. We perform extensive analyses on multiple generative models, dense prediction benchmarks, and several pre-training regimes. We empirically find that our DreamTeacher significantly outperforms existing self-supervised representation learning approaches across the board. Unsupervised ImageNet pre-training with DreamTeacher leads to significant improvements over ImageNet classification pre-training on downstream datasets, showcasing generative models, and diffusion generative models specifically, as a promising approach to representation learning on large, diverse datasets without requiring manual annotation.

DreamTeacher: Pre-addestramento di Backbone di Immagini con Modelli Generativi Profondi

DreamTeacher: Pretraining Image Backbones with Deep Generative Models

Abstract

Support