ChatPaper.aiChatPaper

Predecir tokens enmascarados en ubicaciones estocásticas mejora el modelado de imágenes enmascaradas.

Predicting masked tokens in stochastic locations improves masked image modeling

July 31, 2023
Autores: Amir Bar, Florian Bordes, Assaf Shocher, Mahmoud Assran, Pascal Vincent, Nicolas Ballas, Trevor Darrell, Amir Globerson, Yann LeCun
cs.AI

Resumen

El aprendizaje autosupervisado es un paradigma prometedor en el aprendizaje profundo que permite aprender a partir de datos no etiquetados mediante la construcción de tareas pretexto que requieren aprender representaciones útiles. En el procesamiento del lenguaje natural, la tarea pretexto dominante ha sido el modelado de lenguaje enmascarado (MLM), mientras que en visión por computadora existe un equivalente llamado Modelado de Imágenes Enmascaradas (MIM). Sin embargo, MIM es un desafío porque requiere predecir contenido semántico en ubicaciones precisas. Por ejemplo, dada una imagen incompleta de un perro, podemos adivinar que hay una cola, pero no podemos determinar su ubicación exacta. En este trabajo, proponemos FlexPredict, un modelo estocástico que aborda este desafío incorporando la incertidumbre de ubicación en el modelo. Específicamente, condicionamos el modelo en posiciones estocásticas de tokens enmascarados para guiar al modelo hacia el aprendizaje de características más robustas frente a incertidumbres de ubicación. Nuestro enfoque mejora el rendimiento en tareas posteriores; por ejemplo, en comparación con los baselines de MIM, FlexPredict aumenta la prueba lineal de ImageNet en un 1.6% con ViT-B y en un 2.5% para la segmentación de video semi-supervisada utilizando ViT-L.
English
Self-supervised learning is a promising paradigm in deep learning that enables learning from unlabeled data by constructing pretext tasks that require learning useful representations. In natural language processing, the dominant pretext task has been masked language modeling (MLM), while in computer vision there exists an equivalent called Masked Image Modeling (MIM). However, MIM is challenging because it requires predicting semantic content in accurate locations. E.g, given an incomplete picture of a dog, we can guess that there is a tail, but we cannot determine its exact location. In this work, we propose FlexPredict, a stochastic model that addresses this challenge by incorporating location uncertainty into the model. Specifically, we condition the model on stochastic masked token positions to guide the model toward learning features that are more robust to location uncertainties. Our approach improves downstream performance on a range of tasks, e.g, compared to MIM baselines, FlexPredict boosts ImageNet linear probing by 1.6% with ViT-B and by 2.5% for semi-supervised video segmentation using ViT-L.
PDF160December 15, 2024