Регионально-ориентированное предобучение для обнаружения объектов с открытым словарём с использованием Vision Transformers
Region-Aware Pretraining for Open-Vocabulary Object Detection with Vision Transformers
May 11, 2023
Авторы: Dahun Kim, Anelia Angelova, Weicheng Kuo
cs.AI
Аннотация
Мы представляем Region-aware Open-vocabulary Vision Transformers (RO-ViT) — метод контрастивного предобучения на основе изображений и текста, призванный сократить разрыв между предобучением на уровне изображений и открытым словарным детектированием объектов. На этапе предобучения мы предлагаем случайным образом обрезать и изменять размер областей позиционных эмбеддингов вместо использования эмбеддингов для всего изображения. Это лучше согласуется с использованием позиционных эмбеддингов на уровне регионов на этапе тонкой настройки для детектирования. Кроме того, мы заменяем стандартную функцию потерь на основе softmax и кросс-энтропии в контрастивном обучении на фокальную потерь, чтобы лучше учитывать информативные, но сложные примеры. Наконец, мы используем последние достижения в области предложений новых объектов для улучшения тонкой настройки открытого словарного детектирования. Мы оцениваем нашу полную модель на бенчмарках открытого словарного детектирования LVIS и COCO, а также на задачах zero-shot переноса. RO-ViT достигает нового рекорда в 32.1 AP_r на LVIS, превосходя лучший существующий подход на +5.8 пунктов, а также демонстрирует конкурентоспособные результаты в zero-shot детектировании. Удивительно, но RO-ViT также улучшает представление на уровне изображений и устанавливает новый стандарт на 9 из 12 метрик на бенчмарках COCO и Flickr для поиска соответствий между изображениями и текстом, превосходя конкурирующие подходы с более крупными моделями.
English
We present Region-aware Open-vocabulary Vision Transformers (RO-ViT) - a
contrastive image-text pretraining recipe to bridge the gap between image-level
pretraining and open-vocabulary object detection. At the pretraining phase, we
propose to randomly crop and resize regions of positional embeddings instead of
using the whole image positional embeddings. This better matches the use of
positional embeddings at region-level in the detection finetuning phase. In
addition, we replace the common softmax cross entropy loss in contrastive
learning with focal loss to better learn the informative yet difficult
examples. Finally, we leverage recent advances in novel object proposals to
improve open-vocabulary detection finetuning. We evaluate our full model on the
LVIS and COCO open-vocabulary detection benchmarks and zero-shot transfer.
RO-ViT achieves a state-of-the-art 32.1 AP_r on LVIS, surpassing the best
existing approach by +5.8 points in addition to competitive zero-shot transfer
detection. Surprisingly, RO-ViT improves the image-level representation as well
and achieves the state of the art on 9 out of 12 metrics on COCO and Flickr
image-text retrieval benchmarks, outperforming competitive approaches with
larger models.