DreamTeacher: 심층 생성 모델을 활용한 이미지 백본 사전 학습
DreamTeacher: Pretraining Image Backbones with Deep Generative Models
July 14, 2023
저자: Daiqing Li, Huan Ling, Amlan Kar, David Acuna, Seung Wook Kim, Karsten Kreis, Antonio Torralba, Sanja Fidler
cs.AI
초록
본 연구에서는 생성 네트워크를 활용하여 다운스트림 이미지 백본을 사전 학습하는 자기 지도(self-supervised) 특징 표현 학습 프레임워크인 DreamTeacher를 소개합니다. 우리는 특정 인식 작업을 위해 잘 설계된 표준 이미지 백본으로 훈련된 생성 모델의 지식을 추출하는 방법을 제안합니다. 두 가지 유형의 지식 증류(knowledge distillation)를 탐구합니다: 1) ImageNet과 같은 대규모 레이블 데이터셋에서 백본을 사전 학습하는 대신 학습된 생성 특징을 대상 이미지 백본으로 증류하는 방법, 그리고 2) 생성 네트워크의 작업 헤드(task head)에서 얻은 레이블을 대상 백본의 로짓(logits)으로 증류하는 방법입니다. 우리는 여러 생성 모델, 밀집 예측(dense prediction) 벤치마크, 그리고 다양한 사전 학습 체계에 대해 광범위한 분석을 수행합니다. 실험적으로, DreamTeacher가 기존의 자기 지도 표현 학습 접근법을 전반적으로 크게 능가함을 확인했습니다. DreamTeacher를 사용한 비지도(unsupervised) ImageNet 사전 학습은 다운스트림 데이터셋에서 ImageNet 분류 사전 학습보다 상당한 개선을 보여주며, 특히 확산 생성 모델(diffusion generative model)과 같은 생성 모델이 수동 주석 없이도 대규모 및 다양한 데이터셋에서 표현 학습을 위한 유망한 접근법임을 입증합니다.
English
In this work, we introduce a self-supervised feature representation learning
framework DreamTeacher that utilizes generative networks for pre-training
downstream image backbones. We propose to distill knowledge from a trained
generative model into standard image backbones that have been well engineered
for specific perception tasks. We investigate two types of knowledge
distillation: 1) distilling learned generative features onto target image
backbones as an alternative to pretraining these backbones on large labeled
datasets such as ImageNet, and 2) distilling labels obtained from generative
networks with task heads onto logits of target backbones. We perform extensive
analyses on multiple generative models, dense prediction benchmarks, and
several pre-training regimes. We empirically find that our DreamTeacher
significantly outperforms existing self-supervised representation learning
approaches across the board. Unsupervised ImageNet pre-training with
DreamTeacher leads to significant improvements over ImageNet classification
pre-training on downstream datasets, showcasing generative models, and
diffusion generative models specifically, as a promising approach to
representation learning on large, diverse datasets without requiring manual
annotation.