Предсказание замаскированных токенов в стохастических позициях улучшает моделирование замаскированных изображений
Predicting masked tokens in stochastic locations improves masked image modeling
July 31, 2023
Авторы: Amir Bar, Florian Bordes, Assaf Shocher, Mahmoud Assran, Pascal Vincent, Nicolas Ballas, Trevor Darrell, Amir Globerson, Yann LeCun
cs.AI
Аннотация
Самообучение — это перспективная парадигма в глубоком обучении, которая позволяет обучаться на немаркированных данных путем создания предтекстовых задач, требующих изучения полезных представлений. В обработке естественного языка доминирующей предтекстовой задачей стало маскированное языковое моделирование (MLM), тогда как в компьютерном зрении существует эквивалентная задача, называемая маскированным моделированием изображений (MIM). Однако MIM является сложной задачей, поскольку требует предсказания семантического содержимого с точным определением местоположения. Например, имея неполное изображение собаки, мы можем предположить наличие хвоста, но не можем точно определить его местоположение. В данной работе мы предлагаем FlexPredict, стохастическую модель, которая решает эту проблему, учитывая неопределенность местоположения в модели. В частности, мы задаем модель на основе стохастических позиций маскированных токенов, чтобы направить модель на изучение признаков, более устойчивых к неопределенности местоположения. Наш подход улучшает производительность на ряде задач. Например, по сравнению с базовыми методами MIM, FlexPredict повышает точность линейного тестирования на ImageNet на 1,6% для ViT-B и на 2,5% для полуконтролируемой сегментации видео с использованием ViT-L.
English
Self-supervised learning is a promising paradigm in deep learning that
enables learning from unlabeled data by constructing pretext tasks that require
learning useful representations. In natural language processing, the dominant
pretext task has been masked language modeling (MLM), while in computer vision
there exists an equivalent called Masked Image Modeling (MIM). However, MIM is
challenging because it requires predicting semantic content in accurate
locations. E.g, given an incomplete picture of a dog, we can guess that there
is a tail, but we cannot determine its exact location. In this work, we propose
FlexPredict, a stochastic model that addresses this challenge by incorporating
location uncertainty into the model. Specifically, we condition the model on
stochastic masked token positions to guide the model toward learning features
that are more robust to location uncertainties. Our approach improves
downstream performance on a range of tasks, e.g, compared to MIM baselines,
FlexPredict boosts ImageNet linear probing by 1.6% with ViT-B and by 2.5% for
semi-supervised video segmentation using ViT-L.