Pretraining Consapevole della Regione per il Rilevamento di Oggetti a Vocabolario Aperto con Trasformatori Visivi
Region-Aware Pretraining for Open-Vocabulary Object Detection with Vision Transformers
May 11, 2023
Autori: Dahun Kim, Anelia Angelova, Weicheng Kuo
cs.AI
Abstract
Presentiamo i Region-aware Open-vocabulary Vision Transformers (RO-ViT) – una ricetta di pre-addestramento contrastivo immagine-testo per colmare il divario tra il pre-addestramento a livello di immagine e la rilevazione open-vocabulary di oggetti. Nella fase di pre-addestramento, proponiamo di ritagliare e ridimensionare casualmente le regioni degli embedding posizionali invece di utilizzare gli embedding posizionali dell'intera immagine. Questo si adatta meglio all'uso degli embedding posizionali a livello di regione nella fase di fine-tuning della rilevazione. Inoltre, sostituiamo la comune perdita di entropia incrociata softmax nell'apprendimento contrastivo con la perdita focale per apprendere meglio gli esempi informativi ma difficili. Infine, sfruttiamo i recenti progressi nelle proposte di nuovi oggetti per migliorare il fine-tuning della rilevazione open-vocabulary. Valutiamo il nostro modello completo sui benchmark di rilevazione open-vocabulary LVIS e COCO e sul trasferimento zero-shot. RO-ViT raggiunge uno stato dell'arte di 32.1 AP_r su LVIS, superando il miglior approccio esistente di +5.8 punti, oltre a una rilevazione di trasferimento zero-shot competitiva. Sorprendentemente, RO-ViT migliora anche la rappresentazione a livello di immagine e raggiunge lo stato dell'arte su 9 su 12 metriche sui benchmark di recupero immagine-testo COCO e Flickr, superando approcci competitivi con modelli più grandi.
English
We present Region-aware Open-vocabulary Vision Transformers (RO-ViT) - a
contrastive image-text pretraining recipe to bridge the gap between image-level
pretraining and open-vocabulary object detection. At the pretraining phase, we
propose to randomly crop and resize regions of positional embeddings instead of
using the whole image positional embeddings. This better matches the use of
positional embeddings at region-level in the detection finetuning phase. In
addition, we replace the common softmax cross entropy loss in contrastive
learning with focal loss to better learn the informative yet difficult
examples. Finally, we leverage recent advances in novel object proposals to
improve open-vocabulary detection finetuning. We evaluate our full model on the
LVIS and COCO open-vocabulary detection benchmarks and zero-shot transfer.
RO-ViT achieves a state-of-the-art 32.1 AP_r on LVIS, surpassing the best
existing approach by +5.8 points in addition to competitive zero-shot transfer
detection. Surprisingly, RO-ViT improves the image-level representation as well
and achieves the state of the art on 9 out of 12 metrics on COCO and Flickr
image-text retrieval benchmarks, outperforming competitive approaches with
larger models.