Classificateurs Multi-Modaux pour la Détection d'Objets à Vocabulaire Ouvert

Résumé

L'objectif de cet article est la détection d'objets à vocabulaire ouvert (OVOD) – la construction d'un modèle capable de détecter des objets au-delà des catégories observées lors de l'entraînement, permettant ainsi à l'utilisateur de spécifier des catégories d'intérêt lors de l'inférence sans nécessiter de réentraînement du modèle. Nous adoptons une architecture standard de détecteur d'objets en deux étapes et explorons trois méthodes pour spécifier de nouvelles catégories : via des descriptions textuelles, via des exemples d'images, ou via une combinaison des deux. Nous apportons trois contributions : premièrement, nous utilisons un modèle de langage de grande taille (LLM) pour générer des descriptions textuelles informatives pour les classes d'objets, et construisons des classificateurs textuels puissants ; deuxièmement, nous employons un agrégateur visuel sur des exemples d'images qui peut ingérer un nombre quelconque d'images en entrée, formant ainsi des classificateurs basés sur la vision ; et troisièmement, nous proposons une méthode simple pour fusionner les informations provenant des descriptions textuelles et des exemples d'images, produisant un classificateur multimodal. Lors de l'évaluation sur le benchmark exigeant LVIS pour la détection à vocabulaire ouvert, nous démontrons que : (i) nos classificateurs textuels surpassent tous les travaux précédents en OVOD ; (ii) nos classificateurs basés sur la vision performent aussi bien que les classificateurs textuels des travaux antérieurs ; (iii) l'utilisation de classificateurs multimodaux donne de meilleurs résultats que l'utilisation d'une seule modalité ; et enfin, (iv) nos classificateurs textuels et multimodaux offrent de meilleures performances qu'un détecteur entièrement supervisé.

English

The goal of this paper is open-vocabulary object detection (OVOD) x2013 building a model that can detect objects beyond the set of categories seen at training, thus enabling the user to specify categories of interest at inference without the need for model retraining. We adopt a standard two-stage object detector architecture, and explore three ways for specifying novel categories: via language descriptions, via image exemplars, or via a combination of the two. We make three contributions: first, we prompt a large language model (LLM) to generate informative language descriptions for object classes, and construct powerful text-based classifiers; second, we employ a visual aggregator on image exemplars that can ingest any number of images as input, forming vision-based classifiers; and third, we provide a simple method to fuse information from language descriptions and image exemplars, yielding a multi-modal classifier. When evaluating on the challenging LVIS open-vocabulary benchmark we demonstrate that: (i) our text-based classifiers outperform all previous OVOD works; (ii) our vision-based classifiers perform as well as text-based classifiers in prior work; (iii) using multi-modal classifiers perform better than either modality alone; and finally, (iv) our text-based and multi-modal classifiers yield better performance than a fully-supervised detector.

Classificateurs Multi-Modaux pour la Détection d'Objets à Vocabulaire Ouvert

Multi-Modal Classifiers for Open-Vocabulary Object Detection

Résumé

Support