Contrastief Kenmerk Maskeren Open-Vocabulair Vision Transformer
Contrastive Feature Masking Open-Vocabulary Vision Transformer
September 2, 2023
Auteurs: Dahun Kim, Anelia Angelova, Weicheng Kuo
cs.AI
Samenvatting
We presenteren Contrastive Feature Masking Vision Transformer (CFM-ViT) - een
beeld-tekst vooraf trainmethodologie die gelijktijdig leren van
beeld- en regio-niveau representatie mogelijk maakt voor open-vocabulair
objectdetectie (OVD). Onze aanpak combineert het masked autoencoder (MAE) doel
met het contrastief leren doel om de representatie voor localisatietaken te
verbeteren. In tegenstelling tot standaard MAE, voeren we reconstructie uit in
de gezamenlijke beeld-tekst embeddingruimte, in plaats van de pixelruimte zoals
gebruikelijk bij de klassieke MAE-methode, waardoor het model beter regio-niveau
semantiek leert. Bovendien introduceren we Positional Embedding Dropout (PED)
om schaalvariatie tussen beeld-tekst vooraf trainen en detectie finetunen aan te
pakken door tijdens het vooraf trainen willekeurig de positionele embeddings
weg te laten. PED verbetert de detectieprestaties en maakt het gebruik van een
bevroren ViT-backbone als regio-classificator mogelijk, waardoor het vergeten
van open-vocabulair kennis tijdens detectie finetunen wordt voorkomen. Op de
LVIS open-vocabulair detectiebenchmark behaalt CFM-ViT een state-of-the-art 33.9
APr, wat de beste aanpak met 7.6 punten overtreft en betere zero-shot detectie
transfer realiseert. Tot slot verkrijgt CFM-ViT sterke beeldniveau
representatie, en overtreft het de state of the art op 8 van de 12 metrieken op
zero-shot beeld-tekst retrieval benchmarks.
English
We present Contrastive Feature Masking Vision Transformer (CFM-ViT) - an
image-text pretraining methodology that achieves simultaneous learning of
image- and region-level representation for open-vocabulary object detection
(OVD). Our approach combines the masked autoencoder (MAE) objective into the
contrastive learning objective to improve the representation for localization
tasks. Unlike standard MAE, we perform reconstruction in the joint image-text
embedding space, rather than the pixel space as is customary with the classical
MAE method, which causes the model to better learn region-level semantics.
Moreover, we introduce Positional Embedding Dropout (PED) to address scale
variation between image-text pretraining and detection finetuning by randomly
dropping out the positional embeddings during pretraining. PED improves
detection performance and enables the use of a frozen ViT backbone as a region
classifier, preventing the forgetting of open-vocabulary knowledge during
detection finetuning. On LVIS open-vocabulary detection benchmark, CFM-ViT
achieves a state-of-the-art 33.9 APr, surpassing the best approach by 7.6
points and achieves better zero-shot detection transfer. Finally, CFM-ViT
acquires strong image-level representation, outperforming the state of the art
on 8 out of 12 metrics on zero-shot image-text retrieval benchmarks.