Classificateurs Multi-Modaux pour la Détection d'Objets à Vocabulaire Ouvert
Multi-Modal Classifiers for Open-Vocabulary Object Detection
June 8, 2023
Auteurs: Prannay Kaul, Weidi Xie, Andrew Zisserman
cs.AI
Résumé
L'objectif de cet article est la détection d'objets à vocabulaire ouvert (OVOD) – la construction d'un modèle capable de détecter des objets au-delà des catégories observées lors de l'entraînement, permettant ainsi à l'utilisateur de spécifier des catégories d'intérêt lors de l'inférence sans nécessiter de réentraînement du modèle. Nous adoptons une architecture standard de détecteur d'objets en deux étapes et explorons trois méthodes pour spécifier de nouvelles catégories : via des descriptions textuelles, via des exemples d'images, ou via une combinaison des deux. Nous apportons trois contributions : premièrement, nous utilisons un modèle de langage de grande taille (LLM) pour générer des descriptions textuelles informatives pour les classes d'objets, et construisons des classificateurs textuels puissants ; deuxièmement, nous employons un agrégateur visuel sur des exemples d'images qui peut ingérer un nombre quelconque d'images en entrée, formant ainsi des classificateurs basés sur la vision ; et troisièmement, nous proposons une méthode simple pour fusionner les informations provenant des descriptions textuelles et des exemples d'images, produisant un classificateur multimodal. Lors de l'évaluation sur le benchmark exigeant LVIS pour la détection à vocabulaire ouvert, nous démontrons que : (i) nos classificateurs textuels surpassent tous les travaux précédents en OVOD ; (ii) nos classificateurs basés sur la vision performent aussi bien que les classificateurs textuels des travaux antérieurs ; (iii) l'utilisation de classificateurs multimodaux donne de meilleurs résultats que l'utilisation d'une seule modalité ; et enfin, (iv) nos classificateurs textuels et multimodaux offrent de meilleures performances qu'un détecteur entièrement supervisé.
English
The goal of this paper is open-vocabulary object detection (OVOD)
x2013 building a model that can detect objects beyond the set of
categories seen at training, thus enabling the user to specify categories of
interest at inference without the need for model retraining. We adopt a
standard two-stage object detector architecture, and explore three ways for
specifying novel categories: via language descriptions, via image exemplars, or
via a combination of the two. We make three contributions: first, we prompt a
large language model (LLM) to generate informative language descriptions for
object classes, and construct powerful text-based classifiers; second, we
employ a visual aggregator on image exemplars that can ingest any number of
images as input, forming vision-based classifiers; and third, we provide a
simple method to fuse information from language descriptions and image
exemplars, yielding a multi-modal classifier. When evaluating on the
challenging LVIS open-vocabulary benchmark we demonstrate that: (i) our
text-based classifiers outperform all previous OVOD works; (ii) our
vision-based classifiers perform as well as text-based classifiers in prior
work; (iii) using multi-modal classifiers perform better than either modality
alone; and finally, (iv) our text-based and multi-modal classifiers yield
better performance than a fully-supervised detector.