Regionsbewusstes Vortraining für Open-Vocabulary-Objekterkennung mit Vision Transformern
Region-Aware Pretraining for Open-Vocabulary Object Detection with Vision Transformers
May 11, 2023
Autoren: Dahun Kim, Anelia Angelova, Weicheng Kuo
cs.AI
Zusammenfassung
Wir präsentieren Region-aware Open-vocabulary Vision Transformers (RO-ViT) – ein kontrastives Bild-Text-Vortrainierungsverfahren, um die Lücke zwischen bildbasiertem Vortraining und Open-vocabulary-Objekterkennung zu schließen. In der Vortrainingsphase schlagen wir vor, zufällig ausgeschnittene und skalierte Regionen von Positions-Einbettungen zu verwenden, anstatt die gesamten bildbasierten Positions-Einbettungen zu nutzen. Dies passt besser zur Verwendung von Positions-Einbettungen auf Regionenebene in der Feinabstimmungsphase der Erkennung. Zusätzlich ersetzen wir den üblichen Softmax-Cross-Entropy-Verlust im kontrastiven Lernen durch den Focal Loss, um informative, aber schwierige Beispiele besser zu erlernen. Schließlich nutzen wir aktuelle Fortschritte in der Generierung neuartiger Objektvorschläge, um die Open-vocabulary-Erkennung in der Feinabstimmung zu verbessern. Wir evaluieren unser vollständiges Modell anhand der LVIS- und COCO-Open-vocabulary-Erkennungsbenchmarks sowie des Zero-Shot-Transfers. RO-ViT erreicht einen state-of-the-art-Wert von 32,1 AP_r auf LVIS und übertrifft den bisher besten Ansatz um +5,8 Punkte, zusätzlich zu einer konkurrenzfähigen Zero-Shot-Transfer-Erkennung. Überraschenderweise verbessert RO-ViT auch die bildbasierte Repräsentation und erreicht den State of the Art bei 9 von 12 Metriken auf den COCO- und Flickr-Bild-Text-Retrieval-Benchmarks, wobei es konkurrenzfähige Ansätze mit größeren Modellen übertrifft.
English
We present Region-aware Open-vocabulary Vision Transformers (RO-ViT) - a
contrastive image-text pretraining recipe to bridge the gap between image-level
pretraining and open-vocabulary object detection. At the pretraining phase, we
propose to randomly crop and resize regions of positional embeddings instead of
using the whole image positional embeddings. This better matches the use of
positional embeddings at region-level in the detection finetuning phase. In
addition, we replace the common softmax cross entropy loss in contrastive
learning with focal loss to better learn the informative yet difficult
examples. Finally, we leverage recent advances in novel object proposals to
improve open-vocabulary detection finetuning. We evaluate our full model on the
LVIS and COCO open-vocabulary detection benchmarks and zero-shot transfer.
RO-ViT achieves a state-of-the-art 32.1 AP_r on LVIS, surpassing the best
existing approach by +5.8 points in addition to competitive zero-shot transfer
detection. Surprisingly, RO-ViT improves the image-level representation as well
and achieves the state of the art on 9 out of 12 metrics on COCO and Flickr
image-text retrieval benchmarks, outperforming competitive approaches with
larger models.