Scalabilità del Rilevamento di Oggetti a Vocabolario Aperto
Scaling Open-Vocabulary Object Detection
June 16, 2023
Autori: Matthias Minderer, Alexey Gritsenko, Neil Houlsby
cs.AI
Abstract
La rilevazione di oggetti a vocabolario aperto ha tratto grande beneficio dai modelli preaddestrati di visione e linguaggio, ma è ancora limitata dalla quantità di dati di addestramento per la rilevazione disponibili. Sebbene i dati di addestramento per la rilevazione possano essere ampliati utilizzando coppie immagine-testo del Web come supervisione debole, ciò non è stato fatto su scale paragonabili al preaddestramento a livello di immagine. Qui, aumentiamo la scala dei dati di rilevazione con l'auto-addestramento, che utilizza un rilevatore esistente per generare annotazioni pseudo-box su coppie immagine-testo. Le principali sfide nell'aumentare la scala dell'auto-addestramento sono la scelta dello spazio delle etichette, il filtraggio delle pseudo-annotazioni e l'efficienza dell'addestramento. Presentiamo il modello OWLv2 e la ricetta di auto-addestramento OWL-ST, che affrontano queste sfide. OWLv2 supera le prestazioni dei precedenti rilevatori a vocabolario aperto all'avanguardia già a scale di addestramento comparabili (~10 milioni di esempi). Tuttavia, con OWL-ST, possiamo scalare a oltre 1 miliardo di esempi, ottenendo un ulteriore grande miglioramento: con un'architettura L/14, OWL-ST migliora l'AP sulle classi rare di LVIS, per le quali il modello non ha visto annotazioni box umane, dal 31,2% al 44,6% (miglioramento relativo del 43%). OWL-ST sblocca l'addestramento su scala Web per la localizzazione in mondi aperti, simile a quanto visto per la classificazione delle immagini e la modellazione del linguaggio.
English
Open-vocabulary object detection has benefited greatly from pretrained
vision-language models, but is still limited by the amount of available
detection training data. While detection training data can be expanded by using
Web image-text pairs as weak supervision, this has not been done at scales
comparable to image-level pretraining. Here, we scale up detection data with
self-training, which uses an existing detector to generate pseudo-box
annotations on image-text pairs. Major challenges in scaling self-training are
the choice of label space, pseudo-annotation filtering, and training
efficiency. We present the OWLv2 model and OWL-ST self-training recipe, which
address these challenges. OWLv2 surpasses the performance of previous
state-of-the-art open-vocabulary detectors already at comparable training
scales (~10M examples). However, with OWL-ST, we can scale to over 1B examples,
yielding further large improvement: With an L/14 architecture, OWL-ST improves
AP on LVIS rare classes, for which the model has seen no human box annotations,
from 31.2% to 44.6% (43% relative improvement). OWL-ST unlocks Web-scale
training for open-world localization, similar to what has been seen for image
classification and language modelling.