Mise à l'échelle de la détection d'objets à vocabulaire ouvert
Scaling Open-Vocabulary Object Detection
June 16, 2023
Auteurs: Matthias Minderer, Alexey Gritsenko, Neil Houlsby
cs.AI
Résumé
La détection d'objets à vocabulaire ouvert a grandement bénéficié des modèles vision-langage pré-entraînés, mais reste limitée par la quantité de données d'entraînement disponibles pour la détection. Bien que les données d'entraînement pour la détection puissent être étendues en utilisant des paires image-texte du Web comme supervision faible, cela n'a pas été réalisé à des échelles comparables au pré-entraînement au niveau de l'image. Ici, nous augmentons les données de détection grâce à l'auto-apprentissage, qui utilise un détecteur existant pour générer des annotations de pseudo-boîtes sur des paires image-texte. Les principaux défis dans la mise à l'échelle de l'auto-apprentissage sont le choix de l'espace de labels, le filtrage des pseudo-annotations et l'efficacité de l'entraînement. Nous présentons le modèle OWLv2 et la méthode d'auto-apprentissage OWL-ST, qui répondent à ces défis. OWLv2 dépasse les performances des précédents détecteurs à vocabulaire ouvert de pointe déjà à des échelles d'entraînement comparables (~10M exemples). Cependant, avec OWL-ST, nous pouvons passer à plus de 1 milliard d'exemples, ce qui apporte une amélioration supplémentaire significative : avec une architecture L/14, OWL-ST améliore l'AP sur les classes rares de LVIS, pour lesquelles le modèle n'a vu aucune annotation de boîte humaine, de 31,2 % à 44,6 % (amélioration relative de 43 %). OWL-ST débloque l'entraînement à l'échelle du Web pour la localisation en monde ouvert, similaire à ce qui a été observé pour la classification d'images et la modélisation du langage.
English
Open-vocabulary object detection has benefited greatly from pretrained
vision-language models, but is still limited by the amount of available
detection training data. While detection training data can be expanded by using
Web image-text pairs as weak supervision, this has not been done at scales
comparable to image-level pretraining. Here, we scale up detection data with
self-training, which uses an existing detector to generate pseudo-box
annotations on image-text pairs. Major challenges in scaling self-training are
the choice of label space, pseudo-annotation filtering, and training
efficiency. We present the OWLv2 model and OWL-ST self-training recipe, which
address these challenges. OWLv2 surpasses the performance of previous
state-of-the-art open-vocabulary detectors already at comparable training
scales (~10M examples). However, with OWL-ST, we can scale to over 1B examples,
yielding further large improvement: With an L/14 architecture, OWL-ST improves
AP on LVIS rare classes, for which the model has seen no human box annotations,
from 31.2% to 44.6% (43% relative improvement). OWL-ST unlocks Web-scale
training for open-world localization, similar to what has been seen for image
classification and language modelling.