Multi-modale Classificatoren voor Open-Vocabulary Objectdetectie
Multi-Modal Classifiers for Open-Vocabulary Object Detection
June 8, 2023
Auteurs: Prannay Kaul, Weidi Xie, Andrew Zisserman
cs.AI
Samenvatting
Het doel van dit artikel is open-vocabulary object detection (OVOD) – het bouwen van een model dat objecten kan detecteren buiten de set van categorieën die tijdens de training zijn gezien, waardoor de gebruiker categorieën van interesse tijdens de inferentie kan specificeren zonder dat het model opnieuw getraind hoeft te worden. We hanteren een standaard architectuur voor een tweestaps objectdetector en onderzoeken drie manieren om nieuwe categorieën te specificeren: via taal beschrijvingen, via beeldvoorbeelden, of via een combinatie van beide. We leveren drie bijdragen: ten eerste vragen we een groot taalmodel (LLM) om informatieve taal beschrijvingen voor objectklassen te genereren, en bouwen we krachtige tekstgebaseerde classificatoren; ten tweede gebruiken we een visuele aggregator op beeldvoorbeelden die elk aantal afbeeldingen als invoer kan verwerken, waardoor visiegebaseerde classificatoren worden gevormd; en ten derde bieden we een eenvoudige methode om informatie uit taal beschrijvingen en beeldvoorbeelden te combineren, wat resulteert in een multimodale classificator. Bij evaluatie op de uitdagende LVIS open-vocabulary benchmark tonen we aan dat: (i) onze tekstgebaseerde classificatoren alle vorige OVOD-werk overtreffen; (ii) onze visiegebaseerde classificatoren even goed presteren als tekstgebaseerde classificatoren in eerder werk; (iii) het gebruik van multimodale classificatoren beter presteert dan elk van de modaliteiten afzonderlijk; en ten slotte, (iv) onze tekstgebaseerde en multimodale classificatoren betere prestaties leveren dan een volledig gesuperviseerde detector.
English
The goal of this paper is open-vocabulary object detection (OVOD)
x2013 building a model that can detect objects beyond the set of
categories seen at training, thus enabling the user to specify categories of
interest at inference without the need for model retraining. We adopt a
standard two-stage object detector architecture, and explore three ways for
specifying novel categories: via language descriptions, via image exemplars, or
via a combination of the two. We make three contributions: first, we prompt a
large language model (LLM) to generate informative language descriptions for
object classes, and construct powerful text-based classifiers; second, we
employ a visual aggregator on image exemplars that can ingest any number of
images as input, forming vision-based classifiers; and third, we provide a
simple method to fuse information from language descriptions and image
exemplars, yielding a multi-modal classifier. When evaluating on the
challenging LVIS open-vocabulary benchmark we demonstrate that: (i) our
text-based classifiers outperform all previous OVOD works; (ii) our
vision-based classifiers perform as well as text-based classifiers in prior
work; (iii) using multi-modal classifiers perform better than either modality
alone; and finally, (iv) our text-based and multi-modal classifiers yield
better performance than a fully-supervised detector.