Clasificadores Multimodales para la Detección de Objetos con Vocabulario Abierto
Multi-Modal Classifiers for Open-Vocabulary Object Detection
June 8, 2023
Autores: Prannay Kaul, Weidi Xie, Andrew Zisserman
cs.AI
Resumen
El objetivo de este artículo es la detección de objetos de vocabulario abierto (OVOD, por sus siglas en inglés), es decir, construir un modelo que pueda detectar objetos más allá del conjunto de categorías vistas durante el entrenamiento, permitiendo así al usuario especificar categorías de interés durante la inferencia sin necesidad de reentrenar el modelo. Adoptamos una arquitectura estándar de detector de objetos en dos etapas y exploramos tres formas de especificar categorías novedosas: mediante descripciones lingüísticas, mediante ejemplares de imágenes o mediante una combinación de ambas. Realizamos tres contribuciones: primero, utilizamos un modelo de lenguaje grande (LLM) para generar descripciones lingüísticas informativas de clases de objetos y construimos clasificadores basados en texto potentes; segundo, empleamos un agregador visual en ejemplares de imágenes que puede procesar cualquier número de imágenes como entrada, formando clasificadores basados en visión; y tercero, proporcionamos un método simple para fusionar información de descripciones lingüísticas y ejemplares de imágenes, obteniendo un clasificador multimodal. Al evaluar en el desafiante benchmark de vocabulario abierto LVIS, demostramos que: (i) nuestros clasificadores basados en texto superan a todos los trabajos previos de OVOD; (ii) nuestros clasificadores basados en visión tienen un rendimiento comparable al de los clasificadores basados en texto en trabajos anteriores; (iii) el uso de clasificadores multimodales supera el rendimiento de cualquiera de las modalidades por separado; y finalmente, (iv) nuestros clasificadores basados en texto y multimodales obtienen un mejor rendimiento que un detector completamente supervisado.
English
The goal of this paper is open-vocabulary object detection (OVOD)
x2013 building a model that can detect objects beyond the set of
categories seen at training, thus enabling the user to specify categories of
interest at inference without the need for model retraining. We adopt a
standard two-stage object detector architecture, and explore three ways for
specifying novel categories: via language descriptions, via image exemplars, or
via a combination of the two. We make three contributions: first, we prompt a
large language model (LLM) to generate informative language descriptions for
object classes, and construct powerful text-based classifiers; second, we
employ a visual aggregator on image exemplars that can ingest any number of
images as input, forming vision-based classifiers; and third, we provide a
simple method to fuse information from language descriptions and image
exemplars, yielding a multi-modal classifier. When evaluating on the
challenging LVIS open-vocabulary benchmark we demonstrate that: (i) our
text-based classifiers outperform all previous OVOD works; (ii) our
vision-based classifiers perform as well as text-based classifiers in prior
work; (iii) using multi-modal classifiers perform better than either modality
alone; and finally, (iv) our text-based and multi-modal classifiers yield
better performance than a fully-supervised detector.