Schaalvergroting van Open-Vocabulary Objectdetectie
Scaling Open-Vocabulary Object Detection
June 16, 2023
Auteurs: Matthias Minderer, Alexey Gritsenko, Neil Houlsby
cs.AI
Samenvatting
Open-vocabulary objectdetectie heeft sterk geprofiteerd van vooraf getrainde vision-language modellen, maar wordt nog steeds beperkt door de hoeveelheid beschikbare detectietrainingsdata. Hoewel detectietrainingsdata kan worden uitgebreid door webafbeelding-tekstparen als zwakke supervisie te gebruiken, is dit nog niet op schaal gedaan die vergelijkbaar is met image-level pretraining. Hier schalen we detectiedata op met zelf-training, waarbij een bestaande detector wordt gebruikt om pseudo-box annotaties te genereren op afbeelding-tekstparen. Belangrijke uitdagingen bij het opschalen van zelf-training zijn de keuze van de labelruimte, het filteren van pseudo-annotaties en de trainings efficiëntie. We presenteren het OWLv2-model en het OWL-ST zelf-trainingsrecept, dat deze uitdagingen aanpakt. OWLv2 overtreft de prestaties van eerdere state-of-the-art open-vocabulary detectors al bij vergelijkbare trainingsschalen (~10M voorbeelden). Met OWL-ST kunnen we echter opschalen naar meer dan 1B voorbeelden, wat een verdere grote verbetering oplevert: Met een L/14-architectuur verbetert OWL-ST de AP op LVIS zeldzame klassen, waarvoor het model geen menselijke boxannotaties heeft gezien, van 31,2% naar 44,6% (43% relatieve verbetering). OWL-ST maakt web-schaal training mogelijk voor open-world lokalisatie, vergelijkbaar met wat is gezien voor beeldclassificatie en taalmodellering.
English
Open-vocabulary object detection has benefited greatly from pretrained
vision-language models, but is still limited by the amount of available
detection training data. While detection training data can be expanded by using
Web image-text pairs as weak supervision, this has not been done at scales
comparable to image-level pretraining. Here, we scale up detection data with
self-training, which uses an existing detector to generate pseudo-box
annotations on image-text pairs. Major challenges in scaling self-training are
the choice of label space, pseudo-annotation filtering, and training
efficiency. We present the OWLv2 model and OWL-ST self-training recipe, which
address these challenges. OWLv2 surpasses the performance of previous
state-of-the-art open-vocabulary detectors already at comparable training
scales (~10M examples). However, with OWL-ST, we can scale to over 1B examples,
yielding further large improvement: With an L/14 architecture, OWL-ST improves
AP on LVIS rare classes, for which the model has seen no human box annotations,
from 31.2% to 44.6% (43% relative improvement). OWL-ST unlocks Web-scale
training for open-world localization, similar to what has been seen for image
classification and language modelling.