Prever tokens mascarados em localizações estocásticas melhora a modelagem de imagens mascaradas.

Resumo

O aprendizado auto-supervisionado é um paradigma promissor no campo de aprendizado profundo que permite aprender a partir de dados não rotulados por meio da construção de tarefas pretexto que exigem a aprendizagem de representações úteis. No processamento de linguagem natural, a tarefa pretexto dominante tem sido o modelo de linguagem mascarada (MLM), enquanto na visão computacional existe um equivalente chamado Modelagem de Imagem Mascarada (MIM). No entanto, a MIM é desafiadora porque requer a previsão de conteúdo semântico em locais precisos. Por exemplo, dada uma imagem incompleta de um cachorro, podemos adivinhar que há uma cauda, mas não podemos determinar sua localização exata. Neste trabalho, propomos o FlexPredict, um modelo estocástico que aborda esse desafio ao incorporar incerteza de localização no modelo. Especificamente, condicionamos o modelo em posições estocásticas de tokens mascarados para orientar o modelo a aprender características mais robustas às incertezas de localização. Nossa abordagem melhora o desempenho em tarefas subsequentes; por exemplo, em comparação com as linhas de base da MIM, o FlexPredict aumenta a sondagem linear no ImageNet em 1,6% com o ViT-B e em 2,5% para a segmentação de vídeo semi-supervisionada usando o ViT-L.

English

Self-supervised learning is a promising paradigm in deep learning that enables learning from unlabeled data by constructing pretext tasks that require learning useful representations. In natural language processing, the dominant pretext task has been masked language modeling (MLM), while in computer vision there exists an equivalent called Masked Image Modeling (MIM). However, MIM is challenging because it requires predicting semantic content in accurate locations. E.g, given an incomplete picture of a dog, we can guess that there is a tail, but we cannot determine its exact location. In this work, we propose FlexPredict, a stochastic model that addresses this challenge by incorporating location uncertainty into the model. Specifically, we condition the model on stochastic masked token positions to guide the model toward learning features that are more robust to location uncertainties. Our approach improves downstream performance on a range of tasks, e.g, compared to MIM baselines, FlexPredict boosts ImageNet linear probing by 1.6% with ViT-B and by 2.5% for semi-supervised video segmentation using ViT-L.

Prever tokens mascarados em localizações estocásticas melhora a modelagem de imagens mascaradas.

Predicting masked tokens in stochastic locations improves masked image modeling

Resumo

Support