Kontrastive Merkmalsmaskierung für Open-Vocabulary Vision Transformer
Contrastive Feature Masking Open-Vocabulary Vision Transformer
September 2, 2023
Autoren: Dahun Kim, Anelia Angelova, Weicheng Kuo
cs.AI
Zusammenfassung
Wir präsentieren den Contrastive Feature Masking Vision Transformer (CFM-ViT) – eine Methode zur Vorverarbeitung von Bild-Text-Daten, die gleichzeitiges Lernen von Bild- und Regionenrepräsentationen für die Open-Vocabulary-Objekterkennung (OVD) ermöglicht. Unser Ansatz kombiniert das Ziel des Masked Autoencoders (MAE) mit dem Kontrastlernziel, um die Repräsentation für Lokalisierungsaufgaben zu verbessern. Im Gegensatz zum Standard-MAE führen wir die Rekonstruktion im gemeinsamen Bild-Text-Einbettungsraum durch, anstatt im Pixelraum, wie es bei der klassischen MAE-Methode üblich ist. Dies führt dazu, dass das Modell Regionen-Semantik besser erlernt. Darüber hinaus führen wir Positional Embedding Dropout (PED) ein, um Skalenvariationen zwischen der Bild-Text-Vorverarbeitung und der Feinabstimmung der Erkennung zu adressieren, indem wir während der Vorverarbeitung zufällig Positions-Einbettungen auslassen. PED verbessert die Erkennungsleistung und ermöglicht die Verwendung eines eingefrorenen ViT-Backbones als Regionenklassifikator, wodurch das Vergessen von Open-Vocabulary-Wissen während der Feinabstimmung der Erkennung verhindert wird. Auf dem LVIS-Benchmark für Open-Vocabulary-Erkennung erreicht CFM-ViT einen Spitzenwert von 33,9 APr und übertrifft den besten Ansatz um 7,6 Punkte, wobei auch eine bessere Zero-Shot-Erkennungsübertragung erzielt wird. Schließlich erzielt CFM-ViT eine starke Bildrepräsentation und übertrifft den Stand der Technik bei 8 von 12 Metriken auf Zero-Shot-Bild-Text-Retrieval-Benchmarks.
English
We present Contrastive Feature Masking Vision Transformer (CFM-ViT) - an
image-text pretraining methodology that achieves simultaneous learning of
image- and region-level representation for open-vocabulary object detection
(OVD). Our approach combines the masked autoencoder (MAE) objective into the
contrastive learning objective to improve the representation for localization
tasks. Unlike standard MAE, we perform reconstruction in the joint image-text
embedding space, rather than the pixel space as is customary with the classical
MAE method, which causes the model to better learn region-level semantics.
Moreover, we introduce Positional Embedding Dropout (PED) to address scale
variation between image-text pretraining and detection finetuning by randomly
dropping out the positional embeddings during pretraining. PED improves
detection performance and enables the use of a frozen ViT backbone as a region
classifier, preventing the forgetting of open-vocabulary knowledge during
detection finetuning. On LVIS open-vocabulary detection benchmark, CFM-ViT
achieves a state-of-the-art 33.9 APr, surpassing the best approach by 7.6
points and achieves better zero-shot detection transfer. Finally, CFM-ViT
acquires strong image-level representation, outperforming the state of the art
on 8 out of 12 metrics on zero-shot image-text retrieval benchmarks.Summary
AI-Generated Summary