ChatPaper.aiChatPaper

Das Vorhersagen von maskierten Tokens an stochastischen Positionen verbessert das Modellieren maskierter Bilder.

Predicting masked tokens in stochastic locations improves masked image modeling

July 31, 2023
Autoren: Amir Bar, Florian Bordes, Assaf Shocher, Mahmoud Assran, Pascal Vincent, Nicolas Ballas, Trevor Darrell, Amir Globerson, Yann LeCun
cs.AI

Zusammenfassung

Selbstüberwachtes Lernen ist ein vielversprechendes Paradigma im Deep Learning, das das Lernen aus ungelabelten Daten ermöglicht, indem es Vorwandaufgaben (Pretext Tasks) konstruiert, die das Erlernen nützlicher Repräsentationen erfordern. In der natürlichen Sprachverarbeitung (NLP) war die dominierende Vorwandaufgabe das Masked Language Modeling (MLM), während in der Computer Vision ein äquivalenter Ansatz namens Masked Image Modeling (MIM) existiert. Allerdings ist MIM herausfordernd, da es die Vorhersage von semantischem Inhalt an präzisen Positionen erfordert. Zum Beispiel: Bei einem unvollständigen Bild eines Hundes können wir erraten, dass es einen Schwanz gibt, aber wir können dessen genaue Position nicht bestimmen. In dieser Arbeit schlagen wir FlexPredict vor, ein stochastisches Modell, das diese Herausforderung adressiert, indem es Positionsunsicherheiten in das Modell integriert. Konkret konditionieren wir das Modell auf stochastisch maskierte Token-Positionen, um das Modell dazu zu führen, Merkmale zu erlernen, die robuster gegenüber Positionsunsicherheiten sind. Unser Ansatz verbessert die Downstream-Leistung bei einer Reihe von Aufgaben. Beispielsweise steigert FlexPredict im Vergleich zu MIM-Baselines das Linear Probing auf ImageNet um 1,6 % mit ViT-B und um 2,5 % für semi-überwachte Video-Segmentierung mit ViT-L.
English
Self-supervised learning is a promising paradigm in deep learning that enables learning from unlabeled data by constructing pretext tasks that require learning useful representations. In natural language processing, the dominant pretext task has been masked language modeling (MLM), while in computer vision there exists an equivalent called Masked Image Modeling (MIM). However, MIM is challenging because it requires predicting semantic content in accurate locations. E.g, given an incomplete picture of a dog, we can guess that there is a tail, but we cannot determine its exact location. In this work, we propose FlexPredict, a stochastic model that addresses this challenge by incorporating location uncertainty into the model. Specifically, we condition the model on stochastic masked token positions to guide the model toward learning features that are more robust to location uncertainties. Our approach improves downstream performance on a range of tasks, e.g, compared to MIM baselines, FlexPredict boosts ImageNet linear probing by 1.6% with ViT-B and by 2.5% for semi-supervised video segmentation using ViT-L.
PDF160December 15, 2024