Multi-Modale Klassifikatoren für die Open-Vocabulary-Objekterkennung
Multi-Modal Classifiers for Open-Vocabulary Object Detection
June 8, 2023
Autoren: Prannay Kaul, Weidi Xie, Andrew Zisserman
cs.AI
Zusammenfassung
Das Ziel dieser Arbeit ist die offene Vokabular-Objekterkennung (OVOD) – der Aufbau eines Modells, das Objekte jenseits der während des Trainings gesehenen Kategorien erkennen kann, wodurch der Benutzer in der Lage ist, Kategorien von Interesse während der Inferenz zu spezifizieren, ohne dass eine Modellneuanpassung erforderlich ist. Wir verwenden eine standardmäßige zweistufige Objekterkennungsarchitektur und untersuchen drei Möglichkeiten zur Spezifizierung neuer Kategorien: über Sprachbeschreibungen, über Bildbeispiele oder über eine Kombination aus beidem. Wir leisten drei Beiträge: Erstens fordern wir ein großes Sprachmodell (LLM) auf, informative Sprachbeschreibungen für Objektklassen zu generieren, und konstruieren leistungsstarke textbasierte Klassifikatoren; zweitens setzen wir einen visuellen Aggregator für Bildbeispiele ein, der eine beliebige Anzahl von Bildern als Eingabe verarbeiten kann und somit visuell basierte Klassifikatoren bildet; und drittens bieten wir eine einfache Methode zur Fusion von Informationen aus Sprachbeschreibungen und Bildbeispielen, was zu einem multimodalen Klassifikator führt. Bei der Evaluierung auf dem anspruchsvollen LVIS-Benchmark für offene Vokabular zeigen wir, dass: (i) unsere textbasierten Klassifikatoren alle bisherigen OVOD-Arbeiten übertreffen; (ii) unsere visuell basierten Klassifikatoren genauso gut abschneiden wie textbasierte Klassifikatoren in früheren Arbeiten; (iii) die Verwendung multimodaler Klassifikatoren besser abschneidet als jede Modalität allein; und schließlich (iv) unsere textbasierten und multimodalen Klassifikatoren eine bessere Leistung erzielen als ein vollständig überwachter Detektor.
English
The goal of this paper is open-vocabulary object detection (OVOD)
x2013 building a model that can detect objects beyond the set of
categories seen at training, thus enabling the user to specify categories of
interest at inference without the need for model retraining. We adopt a
standard two-stage object detector architecture, and explore three ways for
specifying novel categories: via language descriptions, via image exemplars, or
via a combination of the two. We make three contributions: first, we prompt a
large language model (LLM) to generate informative language descriptions for
object classes, and construct powerful text-based classifiers; second, we
employ a visual aggregator on image exemplars that can ingest any number of
images as input, forming vision-based classifiers; and third, we provide a
simple method to fuse information from language descriptions and image
exemplars, yielding a multi-modal classifier. When evaluating on the
challenging LVIS open-vocabulary benchmark we demonstrate that: (i) our
text-based classifiers outperform all previous OVOD works; (ii) our
vision-based classifiers perform as well as text-based classifiers in prior
work; (iii) using multi-modal classifiers perform better than either modality
alone; and finally, (iv) our text-based and multi-modal classifiers yield
better performance than a fully-supervised detector.