Pretraining Consciente de la Región para la Detección de Objetos de Vocabulario Abierto con Transformadores de Visión
Region-Aware Pretraining for Open-Vocabulary Object Detection with Vision Transformers
May 11, 2023
Autores: Dahun Kim, Anelia Angelova, Weicheng Kuo
cs.AI
Resumen
Presentamos los Transformers de Visión con Conciencia de Región y Vocabulario Abierto (RO-ViT), una receta de preentrenamiento contrastivo imagen-texto para cerrar la brecha entre el preentrenamiento a nivel de imagen y la detección de objetos con vocabulario abierto. En la fase de preentrenamiento, proponemos recortar y redimensionar aleatoriamente regiones de los embeddings posicionales en lugar de utilizar los embeddings posicionales de la imagen completa. Esto se ajusta mejor al uso de embeddings posicionales a nivel de región en la fase de ajuste fino para detección. Además, reemplazamos la pérdida de entropía cruzada softmax común en el aprendizaje contrastivo con la pérdida focal para aprender mejor los ejemplos informativos pero difíciles. Finalmente, aprovechamos los avances recientes en propuestas de objetos novedosos para mejorar el ajuste fino en detección con vocabulario abierto. Evaluamos nuestro modelo completo en los benchmarks de detección con vocabulario abierto LVIS y COCO, así como en transferencia zero-shot. RO-ViT alcanza un estado del arte de 32.1 AP_r en LVIS, superando al mejor enfoque existente en +5.8 puntos, además de obtener una detección competitiva en transferencia zero-shot. Sorprendentemente, RO-ViT también mejora la representación a nivel de imagen y logra el estado del arte en 9 de 12 métricas en los benchmarks de recuperación imagen-texto de COCO y Flickr, superando enfoques competitivos con modelos más grandes.
English
We present Region-aware Open-vocabulary Vision Transformers (RO-ViT) - a
contrastive image-text pretraining recipe to bridge the gap between image-level
pretraining and open-vocabulary object detection. At the pretraining phase, we
propose to randomly crop and resize regions of positional embeddings instead of
using the whole image positional embeddings. This better matches the use of
positional embeddings at region-level in the detection finetuning phase. In
addition, we replace the common softmax cross entropy loss in contrastive
learning with focal loss to better learn the informative yet difficult
examples. Finally, we leverage recent advances in novel object proposals to
improve open-vocabulary detection finetuning. We evaluate our full model on the
LVIS and COCO open-vocabulary detection benchmarks and zero-shot transfer.
RO-ViT achieves a state-of-the-art 32.1 AP_r on LVIS, surpassing the best
existing approach by +5.8 points in addition to competitive zero-shot transfer
detection. Surprisingly, RO-ViT improves the image-level representation as well
and achieves the state of the art on 9 out of 12 metrics on COCO and Flickr
image-text retrieval benchmarks, outperforming competitive approaches with
larger models.