Mise à l'échelle de la détection d'objets à vocabulaire ouvert

Résumé

La détection d'objets à vocabulaire ouvert a grandement bénéficié des modèles vision-langage pré-entraînés, mais reste limitée par la quantité de données d'entraînement disponibles pour la détection. Bien que les données d'entraînement pour la détection puissent être étendues en utilisant des paires image-texte du Web comme supervision faible, cela n'a pas été réalisé à des échelles comparables au pré-entraînement au niveau de l'image. Ici, nous augmentons les données de détection grâce à l'auto-apprentissage, qui utilise un détecteur existant pour générer des annotations de pseudo-boîtes sur des paires image-texte. Les principaux défis dans la mise à l'échelle de l'auto-apprentissage sont le choix de l'espace de labels, le filtrage des pseudo-annotations et l'efficacité de l'entraînement. Nous présentons le modèle OWLv2 et la méthode d'auto-apprentissage OWL-ST, qui répondent à ces défis. OWLv2 dépasse les performances des précédents détecteurs à vocabulaire ouvert de pointe déjà à des échelles d'entraînement comparables (~10M exemples). Cependant, avec OWL-ST, nous pouvons passer à plus de 1 milliard d'exemples, ce qui apporte une amélioration supplémentaire significative : avec une architecture L/14, OWL-ST améliore l'AP sur les classes rares de LVIS, pour lesquelles le modèle n'a vu aucune annotation de boîte humaine, de 31,2 % à 44,6 % (amélioration relative de 43 %). OWL-ST débloque l'entraînement à l'échelle du Web pour la localisation en monde ouvert, similaire à ce qui a été observé pour la classification d'images et la modélisation du langage.

English

Open-vocabulary object detection has benefited greatly from pretrained vision-language models, but is still limited by the amount of available detection training data. While detection training data can be expanded by using Web image-text pairs as weak supervision, this has not been done at scales comparable to image-level pretraining. Here, we scale up detection data with self-training, which uses an existing detector to generate pseudo-box annotations on image-text pairs. Major challenges in scaling self-training are the choice of label space, pseudo-annotation filtering, and training efficiency. We present the OWLv2 model and OWL-ST self-training recipe, which address these challenges. OWLv2 surpasses the performance of previous state-of-the-art open-vocabulary detectors already at comparable training scales (~10M examples). However, with OWL-ST, we can scale to over 1B examples, yielding further large improvement: With an L/14 architecture, OWL-ST improves AP on LVIS rare classes, for which the model has seen no human box annotations, from 31.2% to 44.6% (43% relative improvement). OWL-ST unlocks Web-scale training for open-world localization, similar to what has been seen for image classification and language modelling.

Mise à l'échelle de la détection d'objets à vocabulaire ouvert

Scaling Open-Vocabulary Object Detection

Résumé

Support