ChatPaper.aiChatPaper

Escalabilidad en la Detección de Objetos de Vocabulario Abierto

Scaling Open-Vocabulary Object Detection

June 16, 2023
Autores: Matthias Minderer, Alexey Gritsenko, Neil Houlsby
cs.AI

Resumen

La detección de objetos de vocabulario abierto se ha beneficiado enormemente de los modelos preentrenados de visión y lenguaje, pero aún está limitada por la cantidad de datos de entrenamiento de detección disponibles. Si bien los datos de entrenamiento de detección pueden ampliarse utilizando pares de imágenes y texto de la web como supervisión débil, esto no se ha hecho a escalas comparables al preentrenamiento a nivel de imagen. Aquí, ampliamos los datos de detección con autoentrenamiento, que utiliza un detector existente para generar anotaciones de pseudo-cajas en pares de imágenes y texto. Los principales desafíos al escalar el autoentrenamiento son la elección del espacio de etiquetas, el filtrado de pseudo-anotaciones y la eficiencia del entrenamiento. Presentamos el modelo OWLv2 y la receta de autoentrenamiento OWL-ST, que abordan estos desafíos. OWLv2 supera el rendimiento de los detectores de vocabulario abierto de última generación ya en escalas de entrenamiento comparables (~10M ejemplos). Sin embargo, con OWL-ST, podemos escalar a más de 1B ejemplos, obteniendo una mejora aún mayor: Con una arquitectura L/14, OWL-ST mejora el AP en las clases raras de LVIS, para las cuales el modelo no ha visto anotaciones de cajas humanas, del 31.2% al 44.6% (una mejora relativa del 43%). OWL-ST desbloquea el entrenamiento a escala web para la localización en mundo abierto, similar a lo que se ha visto en la clasificación de imágenes y el modelado de lenguaje.
English
Open-vocabulary object detection has benefited greatly from pretrained vision-language models, but is still limited by the amount of available detection training data. While detection training data can be expanded by using Web image-text pairs as weak supervision, this has not been done at scales comparable to image-level pretraining. Here, we scale up detection data with self-training, which uses an existing detector to generate pseudo-box annotations on image-text pairs. Major challenges in scaling self-training are the choice of label space, pseudo-annotation filtering, and training efficiency. We present the OWLv2 model and OWL-ST self-training recipe, which address these challenges. OWLv2 surpasses the performance of previous state-of-the-art open-vocabulary detectors already at comparable training scales (~10M examples). However, with OWL-ST, we can scale to over 1B examples, yielding further large improvement: With an L/14 architecture, OWL-ST improves AP on LVIS rare classes, for which the model has seen no human box annotations, from 31.2% to 44.6% (43% relative improvement). OWL-ST unlocks Web-scale training for open-world localization, similar to what has been seen for image classification and language modelling.
PDF132December 15, 2024