Prédire les tokens masqués dans des emplacements stochastiques améliore la modélisation d'images masquées.
Predicting masked tokens in stochastic locations improves masked image modeling
July 31, 2023
Auteurs: Amir Bar, Florian Bordes, Assaf Shocher, Mahmoud Assran, Pascal Vincent, Nicolas Ballas, Trevor Darrell, Amir Globerson, Yann LeCun
cs.AI
Résumé
L'apprentissage auto-supervisé est un paradigme prometteur en apprentissage profond qui permet d'apprendre à partir de données non étiquetées en construisant des tâches prétextes nécessitant l'apprentissage de représentations utiles. En traitement du langage naturel, la tâche prétexte dominante a été la modélisation de langage masqué (MLM), tandis qu'en vision par ordinateur, il existe un équivalent appelé modélisation d'image masquée (MIM). Cependant, la MIM est un défi car elle nécessite de prédire un contenu sémantique à des emplacements précis. Par exemple, étant donné une image incomplète d'un chien, nous pouvons deviner qu'il y a une queue, mais nous ne pouvons pas déterminer sa position exacte. Dans ce travail, nous proposons FlexPredict, un modèle stochastique qui relève ce défi en intégrant l'incertitude de localisation dans le modèle. Plus précisément, nous conditionnons le modèle sur des positions de tokens masqués stochastiques pour guider le modèle vers l'apprentissage de caractéristiques plus robustes face aux incertitudes de localisation. Notre approche améliore les performances en aval sur une gamme de tâches. Par exemple, par rapport aux modèles de référence en MIM, FlexPredict améliore le sondage linéaire sur ImageNet de 1,6 % avec ViT-B et de 2,5 % pour la segmentation vidéo semi-supervisée utilisant ViT-L.
English
Self-supervised learning is a promising paradigm in deep learning that
enables learning from unlabeled data by constructing pretext tasks that require
learning useful representations. In natural language processing, the dominant
pretext task has been masked language modeling (MLM), while in computer vision
there exists an equivalent called Masked Image Modeling (MIM). However, MIM is
challenging because it requires predicting semantic content in accurate
locations. E.g, given an incomplete picture of a dog, we can guess that there
is a tail, but we cannot determine its exact location. In this work, we propose
FlexPredict, a stochastic model that addresses this challenge by incorporating
location uncertainty into the model. Specifically, we condition the model on
stochastic masked token positions to guide the model toward learning features
that are more robust to location uncertainties. Our approach improves
downstream performance on a range of tasks, e.g, compared to MIM baselines,
FlexPredict boosts ImageNet linear probing by 1.6% with ViT-B and by 2.5% for
semi-supervised video segmentation using ViT-L.