확률적 위치에서 마스킹된 토큰을 예측하는 것은 마스킹된 이미지 모델링을 향상시킨다.
Predicting masked tokens in stochastic locations improves masked image modeling
July 31, 2023
저자: Amir Bar, Florian Bordes, Assaf Shocher, Mahmoud Assran, Pascal Vincent, Nicolas Ballas, Trevor Darrell, Amir Globerson, Yann LeCun
cs.AI
초록
자기 지도 학습(self-supervised learning)은 레이블이 없는 데이터로부터 유용한 표현을 학습하기 위해 사전 작업(pretext task)을 구성함으로써 학습을 가능하게 하는 딥러닝의 유망한 패러다임입니다. 자연어 처리 분야에서는 마스크된 언어 모델링(Masked Language Modeling, MLM)이 주된 사전 작업으로 자리 잡았으며, 컴퓨터 비전 분야에서는 이에 상응하는 마스크된 이미지 모델링(Masked Image Modeling, MIM)이 존재합니다. 그러나 MIM은 정확한 위치에서 의미론적 내용을 예측해야 하기 때문에 어려운 과제입니다. 예를 들어, 개의 불완전한 사진이 주어졌을 때 꼬리가 있을 것이라고 추측할 수는 있지만 정확한 위치를 파악하는 것은 불가능합니다. 본 연구에서는 이러한 문제를 해결하기 위해 위치 불확실성을 모델에 통합한 확률적 모델인 FlexPredict를 제안합니다. 구체적으로, 우리는 모델이 위치 불확실성에 더 강건한 특징을 학습하도록 유도하기 위해 확률적으로 마스크된 토큰 위치를 조건으로 설정합니다. 우리의 접근 방식은 다양한 다운스트림 작업에서 성능을 향상시키며, 예를 들어 MIM 베이스라인과 비교했을 때 FlexPredict는 ViT-B를 사용한 ImageNet 선형 탐사(linear probing)에서 1.6%, ViT-L을 사용한 준지도 비디오 분할(semi-supervised video segmentation)에서 2.5%의 성능 향상을 달성했습니다.
English
Self-supervised learning is a promising paradigm in deep learning that
enables learning from unlabeled data by constructing pretext tasks that require
learning useful representations. In natural language processing, the dominant
pretext task has been masked language modeling (MLM), while in computer vision
there exists an equivalent called Masked Image Modeling (MIM). However, MIM is
challenging because it requires predicting semantic content in accurate
locations. E.g, given an incomplete picture of a dog, we can guess that there
is a tail, but we cannot determine its exact location. In this work, we propose
FlexPredict, a stochastic model that addresses this challenge by incorporating
location uncertainty into the model. Specifically, we condition the model on
stochastic masked token positions to guide the model toward learning features
that are more robust to location uncertainties. Our approach improves
downstream performance on a range of tasks, e.g, compared to MIM baselines,
FlexPredict boosts ImageNet linear probing by 1.6% with ViT-B and by 2.5% for
semi-supervised video segmentation using ViT-L.