Classificatori Multi-Modali per il Rilevamento di Oggetti a Vocabolario Aperto
Multi-Modal Classifiers for Open-Vocabulary Object Detection
June 8, 2023
Autori: Prannay Kaul, Weidi Xie, Andrew Zisserman
cs.AI
Abstract
L'obiettivo di questo articolo è la rilevazione di oggetti a vocabolario aperto (OVOD) – costruire un modello in grado di rilevare oggetti oltre l'insieme di categorie viste durante l'addestramento, consentendo così all'utente di specificare categorie di interesse durante l'inferenza senza la necessità di riaddestrare il modello. Adottiamo un'architettura standard di rilevatore di oggetti a due stadi ed esploriamo tre modalità per specificare nuove categorie: tramite descrizioni linguistiche, tramite esempi di immagini o tramite una combinazione delle due. Forniamo tre contributi: primo, utilizziamo un modello linguistico di grandi dimensioni (LLM) per generare descrizioni linguistiche informative per le classi di oggetti e costruiamo classificatori basati su testo potenti; secondo, impieghiamo un aggregatore visivo sugli esempi di immagini che può elaborare qualsiasi numero di immagini come input, formando classificatori basati su visione; e terzo, forniamo un metodo semplice per fondere le informazioni dalle descrizioni linguistiche e dagli esempi di immagini, ottenendo un classificatore multimodale. Quando valutiamo sul benchmark impegnativo LVIS per la rilevazione a vocabolario aperto, dimostriamo che: (i) i nostri classificatori basati su testo superano tutti i precedenti lavori OVOD; (ii) i nostri classificatori basati su visione performano altrettanto bene quanto i classificatori basati su testo nei lavori precedenti; (iii) l'uso di classificatori multimodali performa meglio rispetto a ciascuna modalità singolarmente; e infine, (iv) i nostri classificatori basati su testo e multimodali ottengono prestazioni migliori rispetto a un rilevatore completamente supervisionato.
English
The goal of this paper is open-vocabulary object detection (OVOD)
x2013 building a model that can detect objects beyond the set of
categories seen at training, thus enabling the user to specify categories of
interest at inference without the need for model retraining. We adopt a
standard two-stage object detector architecture, and explore three ways for
specifying novel categories: via language descriptions, via image exemplars, or
via a combination of the two. We make three contributions: first, we prompt a
large language model (LLM) to generate informative language descriptions for
object classes, and construct powerful text-based classifiers; second, we
employ a visual aggregator on image exemplars that can ingest any number of
images as input, forming vision-based classifiers; and third, we provide a
simple method to fuse information from language descriptions and image
exemplars, yielding a multi-modal classifier. When evaluating on the
challenging LVIS open-vocabulary benchmark we demonstrate that: (i) our
text-based classifiers outperform all previous OVOD works; (ii) our
vision-based classifiers perform as well as text-based classifiers in prior
work; (iii) using multi-modal classifiers perform better than either modality
alone; and finally, (iv) our text-based and multi-modal classifiers yield
better performance than a fully-supervised detector.