ChatPaper.aiChatPaper

Skalierung der offenen Vokabular-Objekterkennung

Scaling Open-Vocabulary Object Detection

June 16, 2023
Autoren: Matthias Minderer, Alexey Gritsenko, Neil Houlsby
cs.AI

Zusammenfassung

Die offen-vokabular Objekterkennung hat stark von vortrainierten Vision-Sprache-Modellen profitiert, ist jedoch nach wie vor durch die Menge der verfügbaren Erkennungstrainingsdaten begrenzt. Zwar können Erkennungstrainingsdaten durch die Verwendung von Web-Bild-Text-Paaren als schwache Supervision erweitert werden, dies wurde jedoch noch nicht in einem mit der Bild-Level-Vortraining vergleichbaren Umfang durchgeführt. Hier skalieren wir die Erkennungsdaten durch Selbsttraining, bei dem ein bestehender Detektor verwendet wird, um Pseudo-Box-Annotationen auf Bild-Text-Paaren zu generieren. Die Hauptherausforderungen bei der Skalierung des Selbsttrainings sind die Wahl des Label-Raums, die Filterung von Pseudo-Annotationen und die Trainings-Effizienz. Wir präsentieren das OWLv2-Modell und das OWL-ST-Selbsttrainingsrezept, die diese Herausforderungen adressieren. OWLv2 übertrifft die Leistung bisheriger State-of-the-Art offen-vokabular Detektoren bereits bei vergleichbaren Trainingsumfängen (~10M Beispiele). Mit OWL-ST können wir jedoch auf über 1B Beispiele skalieren, was weitere erhebliche Verbesserungen bringt: Mit einer L/14-Architektur verbessert OWL-ST den AP auf LVIS seltene Klassen, für die das Modell keine menschlichen Box-Annotationen gesehen hat, von 31,2 % auf 44,6 % (43 % relative Verbesserung). OWL-ST ermöglicht Web-skalierbares Training für die offene Welt Lokalisierung, ähnlich wie es für Bildklassifikation und Sprachmodellierung beobachtet wurde.
English
Open-vocabulary object detection has benefited greatly from pretrained vision-language models, but is still limited by the amount of available detection training data. While detection training data can be expanded by using Web image-text pairs as weak supervision, this has not been done at scales comparable to image-level pretraining. Here, we scale up detection data with self-training, which uses an existing detector to generate pseudo-box annotations on image-text pairs. Major challenges in scaling self-training are the choice of label space, pseudo-annotation filtering, and training efficiency. We present the OWLv2 model and OWL-ST self-training recipe, which address these challenges. OWLv2 surpasses the performance of previous state-of-the-art open-vocabulary detectors already at comparable training scales (~10M examples). However, with OWL-ST, we can scale to over 1B examples, yielding further large improvement: With an L/14 architecture, OWL-ST improves AP on LVIS rare classes, for which the model has seen no human box annotations, from 31.2% to 44.6% (43% relative improvement). OWL-ST unlocks Web-scale training for open-world localization, similar to what has been seen for image classification and language modelling.
PDF132December 15, 2024