Pré-treinamento Consciente da Região para Detecção de Objetos de Vocabulário Aberto com Transformadores de Visão
Region-Aware Pretraining for Open-Vocabulary Object Detection with Vision Transformers
May 11, 2023
Autores: Dahun Kim, Anelia Angelova, Weicheng Kuo
cs.AI
Resumo
Apresentamos os Transformers de Visão com Vocabulário Aberto e Consciência de Região (RO-ViT) – uma receita de pré-treinamento contrastivo de imagem-texto para reduzir a lacuna entre o pré-treinamento em nível de imagem e a detecção de objetos com vocabulário aberto. Na fase de pré-treinamento, propomos recortar e redimensionar aleatoriamente regiões de embeddings posicionais em vez de utilizar embeddings posicionais da imagem inteira. Isso se alinha melhor com o uso de embeddings posicionais em nível de região na fase de ajuste fino para detecção. Além disso, substituímos a função de perda de entropia cruzada softmax, comumente usada em aprendizado contrastivo, pela função de perda focal, para melhorar o aprendizado de exemplos informativos, porém difíceis. Por fim, aproveitamos avanços recentes em propostas de novos objetos para aprimorar o ajuste fino de detecção com vocabulário aberto. Avaliamos nosso modelo completo nos benchmarks de detecção com vocabulário aberto LVIS e COCO, bem como na transferência zero-shot. O RO-ViT alcança um estado da arte de 32,1 AP_r no LVIS, superando a melhor abordagem existente em +5,8 pontos, além de apresentar uma detecção competitiva em transferência zero-shot. Surpreendentemente, o RO-ViT também melhora a representação em nível de imagem, atingindo o estado da arte em 9 de 12 métricas nos benchmarks de recuperação de imagem-texto COCO e Flickr, superando abordagens competitivas com modelos maiores.
English
We present Region-aware Open-vocabulary Vision Transformers (RO-ViT) - a
contrastive image-text pretraining recipe to bridge the gap between image-level
pretraining and open-vocabulary object detection. At the pretraining phase, we
propose to randomly crop and resize regions of positional embeddings instead of
using the whole image positional embeddings. This better matches the use of
positional embeddings at region-level in the detection finetuning phase. In
addition, we replace the common softmax cross entropy loss in contrastive
learning with focal loss to better learn the informative yet difficult
examples. Finally, we leverage recent advances in novel object proposals to
improve open-vocabulary detection finetuning. We evaluate our full model on the
LVIS and COCO open-vocabulary detection benchmarks and zero-shot transfer.
RO-ViT achieves a state-of-the-art 32.1 AP_r on LVIS, surpassing the best
existing approach by +5.8 points in addition to competitive zero-shot transfer
detection. Surprisingly, RO-ViT improves the image-level representation as well
and achieves the state of the art on 9 out of 12 metrics on COCO and Flickr
image-text retrieval benchmarks, outperforming competitive approaches with
larger models.