ChatPaper.aiChatPaper

Multi-Modale Klassifikatoren für die Open-Vocabulary-Objekterkennung

Multi-Modal Classifiers for Open-Vocabulary Object Detection

June 8, 2023
Autoren: Prannay Kaul, Weidi Xie, Andrew Zisserman
cs.AI

Zusammenfassung

Das Ziel dieser Arbeit ist die offene Vokabular-Objekterkennung (OVOD) – der Aufbau eines Modells, das Objekte jenseits der während des Trainings gesehenen Kategorien erkennen kann, wodurch der Benutzer in der Lage ist, Kategorien von Interesse während der Inferenz zu spezifizieren, ohne dass eine Modellneuanpassung erforderlich ist. Wir verwenden eine standardmäßige zweistufige Objekterkennungsarchitektur und untersuchen drei Möglichkeiten zur Spezifizierung neuer Kategorien: über Sprachbeschreibungen, über Bildbeispiele oder über eine Kombination aus beidem. Wir leisten drei Beiträge: Erstens fordern wir ein großes Sprachmodell (LLM) auf, informative Sprachbeschreibungen für Objektklassen zu generieren, und konstruieren leistungsstarke textbasierte Klassifikatoren; zweitens setzen wir einen visuellen Aggregator für Bildbeispiele ein, der eine beliebige Anzahl von Bildern als Eingabe verarbeiten kann und somit visuell basierte Klassifikatoren bildet; und drittens bieten wir eine einfache Methode zur Fusion von Informationen aus Sprachbeschreibungen und Bildbeispielen, was zu einem multimodalen Klassifikator führt. Bei der Evaluierung auf dem anspruchsvollen LVIS-Benchmark für offene Vokabular zeigen wir, dass: (i) unsere textbasierten Klassifikatoren alle bisherigen OVOD-Arbeiten übertreffen; (ii) unsere visuell basierten Klassifikatoren genauso gut abschneiden wie textbasierte Klassifikatoren in früheren Arbeiten; (iii) die Verwendung multimodaler Klassifikatoren besser abschneidet als jede Modalität allein; und schließlich (iv) unsere textbasierten und multimodalen Klassifikatoren eine bessere Leistung erzielen als ein vollständig überwachter Detektor.
English
The goal of this paper is open-vocabulary object detection (OVOD) x2013 building a model that can detect objects beyond the set of categories seen at training, thus enabling the user to specify categories of interest at inference without the need for model retraining. We adopt a standard two-stage object detector architecture, and explore three ways for specifying novel categories: via language descriptions, via image exemplars, or via a combination of the two. We make three contributions: first, we prompt a large language model (LLM) to generate informative language descriptions for object classes, and construct powerful text-based classifiers; second, we employ a visual aggregator on image exemplars that can ingest any number of images as input, forming vision-based classifiers; and third, we provide a simple method to fuse information from language descriptions and image exemplars, yielding a multi-modal classifier. When evaluating on the challenging LVIS open-vocabulary benchmark we demonstrate that: (i) our text-based classifiers outperform all previous OVOD works; (ii) our vision-based classifiers perform as well as text-based classifiers in prior work; (iii) using multi-modal classifiers perform better than either modality alone; and finally, (iv) our text-based and multi-modal classifiers yield better performance than a fully-supervised detector.
PDF61December 15, 2024