Predecir tokens enmascarados en ubicaciones estocásticas mejora el modelado de imágenes enmascaradas.
Predicting masked tokens in stochastic locations improves masked image modeling
July 31, 2023
Autores: Amir Bar, Florian Bordes, Assaf Shocher, Mahmoud Assran, Pascal Vincent, Nicolas Ballas, Trevor Darrell, Amir Globerson, Yann LeCun
cs.AI
Resumen
El aprendizaje autosupervisado es un paradigma prometedor en el aprendizaje profundo que permite aprender a partir de datos no etiquetados mediante la construcción de tareas pretexto que requieren aprender representaciones útiles. En el procesamiento del lenguaje natural, la tarea pretexto dominante ha sido el modelado de lenguaje enmascarado (MLM), mientras que en visión por computadora existe un equivalente llamado Modelado de Imágenes Enmascaradas (MIM). Sin embargo, MIM es un desafío porque requiere predecir contenido semántico en ubicaciones precisas. Por ejemplo, dada una imagen incompleta de un perro, podemos adivinar que hay una cola, pero no podemos determinar su ubicación exacta. En este trabajo, proponemos FlexPredict, un modelo estocástico que aborda este desafío incorporando la incertidumbre de ubicación en el modelo. Específicamente, condicionamos el modelo en posiciones estocásticas de tokens enmascarados para guiar al modelo hacia el aprendizaje de características más robustas frente a incertidumbres de ubicación. Nuestro enfoque mejora el rendimiento en tareas posteriores; por ejemplo, en comparación con los baselines de MIM, FlexPredict aumenta la prueba lineal de ImageNet en un 1.6% con ViT-B y en un 2.5% para la segmentación de video semi-supervisada utilizando ViT-L.
English
Self-supervised learning is a promising paradigm in deep learning that
enables learning from unlabeled data by constructing pretext tasks that require
learning useful representations. In natural language processing, the dominant
pretext task has been masked language modeling (MLM), while in computer vision
there exists an equivalent called Masked Image Modeling (MIM). However, MIM is
challenging because it requires predicting semantic content in accurate
locations. E.g, given an incomplete picture of a dog, we can guess that there
is a tail, but we cannot determine its exact location. In this work, we propose
FlexPredict, a stochastic model that addresses this challenge by incorporating
location uncertainty into the model. Specifically, we condition the model on
stochastic masked token positions to guide the model toward learning features
that are more robust to location uncertainties. Our approach improves
downstream performance on a range of tasks, e.g, compared to MIM baselines,
FlexPredict boosts ImageNet linear probing by 1.6% with ViT-B and by 2.5% for
semi-supervised video segmentation using ViT-L.