ChatPaper.aiChatPaper

Contrastief Kenmerk Maskeren Open-Vocabulair Vision Transformer

Contrastive Feature Masking Open-Vocabulary Vision Transformer

September 2, 2023
Auteurs: Dahun Kim, Anelia Angelova, Weicheng Kuo
cs.AI

Samenvatting

We presenteren Contrastive Feature Masking Vision Transformer (CFM-ViT) - een beeld-tekst vooraf trainmethodologie die gelijktijdig leren van beeld- en regio-niveau representatie mogelijk maakt voor open-vocabulair objectdetectie (OVD). Onze aanpak combineert het masked autoencoder (MAE) doel met het contrastief leren doel om de representatie voor localisatietaken te verbeteren. In tegenstelling tot standaard MAE, voeren we reconstructie uit in de gezamenlijke beeld-tekst embeddingruimte, in plaats van de pixelruimte zoals gebruikelijk bij de klassieke MAE-methode, waardoor het model beter regio-niveau semantiek leert. Bovendien introduceren we Positional Embedding Dropout (PED) om schaalvariatie tussen beeld-tekst vooraf trainen en detectie finetunen aan te pakken door tijdens het vooraf trainen willekeurig de positionele embeddings weg te laten. PED verbetert de detectieprestaties en maakt het gebruik van een bevroren ViT-backbone als regio-classificator mogelijk, waardoor het vergeten van open-vocabulair kennis tijdens detectie finetunen wordt voorkomen. Op de LVIS open-vocabulair detectiebenchmark behaalt CFM-ViT een state-of-the-art 33.9 APr, wat de beste aanpak met 7.6 punten overtreft en betere zero-shot detectie transfer realiseert. Tot slot verkrijgt CFM-ViT sterke beeldniveau representatie, en overtreft het de state of the art op 8 van de 12 metrieken op zero-shot beeld-tekst retrieval benchmarks.
English
We present Contrastive Feature Masking Vision Transformer (CFM-ViT) - an image-text pretraining methodology that achieves simultaneous learning of image- and region-level representation for open-vocabulary object detection (OVD). Our approach combines the masked autoencoder (MAE) objective into the contrastive learning objective to improve the representation for localization tasks. Unlike standard MAE, we perform reconstruction in the joint image-text embedding space, rather than the pixel space as is customary with the classical MAE method, which causes the model to better learn region-level semantics. Moreover, we introduce Positional Embedding Dropout (PED) to address scale variation between image-text pretraining and detection finetuning by randomly dropping out the positional embeddings during pretraining. PED improves detection performance and enables the use of a frozen ViT backbone as a region classifier, preventing the forgetting of open-vocabulary knowledge during detection finetuning. On LVIS open-vocabulary detection benchmark, CFM-ViT achieves a state-of-the-art 33.9 APr, surpassing the best approach by 7.6 points and achieves better zero-shot detection transfer. Finally, CFM-ViT acquires strong image-level representation, outperforming the state of the art on 8 out of 12 metrics on zero-shot image-text retrieval benchmarks.
PDF100February 8, 2026