ChatPaper.aiChatPaper

Предсказание замаскированных токенов в стохастических позициях улучшает моделирование замаскированных изображений

Predicting masked tokens in stochastic locations improves masked image modeling

July 31, 2023
Авторы: Amir Bar, Florian Bordes, Assaf Shocher, Mahmoud Assran, Pascal Vincent, Nicolas Ballas, Trevor Darrell, Amir Globerson, Yann LeCun
cs.AI

Аннотация

Самообучение — это перспективная парадигма в глубоком обучении, которая позволяет обучаться на немаркированных данных путем создания предтекстовых задач, требующих изучения полезных представлений. В обработке естественного языка доминирующей предтекстовой задачей стало маскированное языковое моделирование (MLM), тогда как в компьютерном зрении существует эквивалентная задача, называемая маскированным моделированием изображений (MIM). Однако MIM является сложной задачей, поскольку требует предсказания семантического содержимого с точным определением местоположения. Например, имея неполное изображение собаки, мы можем предположить наличие хвоста, но не можем точно определить его местоположение. В данной работе мы предлагаем FlexPredict, стохастическую модель, которая решает эту проблему, учитывая неопределенность местоположения в модели. В частности, мы задаем модель на основе стохастических позиций маскированных токенов, чтобы направить модель на изучение признаков, более устойчивых к неопределенности местоположения. Наш подход улучшает производительность на ряде задач. Например, по сравнению с базовыми методами MIM, FlexPredict повышает точность линейного тестирования на ImageNet на 1,6% для ViT-B и на 2,5% для полуконтролируемой сегментации видео с использованием ViT-L.
English
Self-supervised learning is a promising paradigm in deep learning that enables learning from unlabeled data by constructing pretext tasks that require learning useful representations. In natural language processing, the dominant pretext task has been masked language modeling (MLM), while in computer vision there exists an equivalent called Masked Image Modeling (MIM). However, MIM is challenging because it requires predicting semantic content in accurate locations. E.g, given an incomplete picture of a dog, we can guess that there is a tail, but we cannot determine its exact location. In this work, we propose FlexPredict, a stochastic model that addresses this challenge by incorporating location uncertainty into the model. Specifically, we condition the model on stochastic masked token positions to guide the model toward learning features that are more robust to location uncertainties. Our approach improves downstream performance on a range of tasks, e.g, compared to MIM baselines, FlexPredict boosts ImageNet linear probing by 1.6% with ViT-B and by 2.5% for semi-supervised video segmentation using ViT-L.
PDF160December 15, 2024