Classificadores Multimodais para Detecção de Objetos com Vocabulário Aberto
Multi-Modal Classifiers for Open-Vocabulary Object Detection
June 8, 2023
Autores: Prannay Kaul, Weidi Xie, Andrew Zisserman
cs.AI
Resumo
O objetivo deste artigo é a detecção de objetos de vocabulário aberto (OVOD, na sigla em inglês) – construir um modelo capaz de detectar objetos além do conjunto de categorias vistas durante o treinamento, permitindo assim que o usuário especifique categorias de interesse durante a inferência sem a necessidade de retreinar o modelo. Adotamos uma arquitetura padrão de detector de objetos em dois estágios e exploramos três maneiras de especificar categorias novas: por meio de descrições em linguagem natural, por meio de exemplos de imagens ou por meio de uma combinação das duas. Fazemos três contribuições: primeiro, solicitamos que um modelo de linguagem de grande escala (LLM) gere descrições informativas em linguagem natural para classes de objetos, construindo classificadores baseados em texto poderosos; segundo, empregamos um agregador visual em exemplos de imagens que pode processar qualquer número de imagens como entrada, formando classificadores baseados em visão; e terceiro, fornecemos um método simples para fundir informações de descrições em linguagem natural e exemplos de imagens, resultando em um classificador multimodal. Ao avaliar no desafiador benchmark LVIS de vocabulário aberto, demonstramos que: (i) nossos classificadores baseados em texto superam todos os trabalhos anteriores de OVOD; (ii) nossos classificadores baseados em visão têm desempenho equivalente aos classificadores baseados em texto em trabalhos anteriores; (iii) o uso de classificadores multimodais apresenta desempenho superior ao de qualquer modalidade isolada; e, finalmente, (iv) nossos classificadores baseados em texto e multimodais alcançam desempenho melhor do que um detector totalmente supervisionado.
English
The goal of this paper is open-vocabulary object detection (OVOD)
x2013 building a model that can detect objects beyond the set of
categories seen at training, thus enabling the user to specify categories of
interest at inference without the need for model retraining. We adopt a
standard two-stage object detector architecture, and explore three ways for
specifying novel categories: via language descriptions, via image exemplars, or
via a combination of the two. We make three contributions: first, we prompt a
large language model (LLM) to generate informative language descriptions for
object classes, and construct powerful text-based classifiers; second, we
employ a visual aggregator on image exemplars that can ingest any number of
images as input, forming vision-based classifiers; and third, we provide a
simple method to fuse information from language descriptions and image
exemplars, yielding a multi-modal classifier. When evaluating on the
challenging LVIS open-vocabulary benchmark we demonstrate that: (i) our
text-based classifiers outperform all previous OVOD works; (ii) our
vision-based classifiers perform as well as text-based classifiers in prior
work; (iii) using multi-modal classifiers perform better than either modality
alone; and finally, (iv) our text-based and multi-modal classifiers yield
better performance than a fully-supervised detector.