Escalonamento de Detecção de Objetos com Vocabulário Aberto
Scaling Open-Vocabulary Object Detection
June 16, 2023
Autores: Matthias Minderer, Alexey Gritsenko, Neil Houlsby
cs.AI
Resumo
A detecção de objetos de vocabulário aberto tem se beneficiado muito dos modelos pré-treinados de visão e linguagem, mas ainda é limitada pela quantidade de dados de treinamento de detecção disponíveis. Embora os dados de treinamento de detecção possam ser expandidos usando pares de imagem-texto da web como supervisão fraca, isso não foi feito em escalas comparáveis ao pré-treinamento em nível de imagem. Aqui, ampliamos os dados de detecção com auto-treinamento, que utiliza um detector existente para gerar anotações de pseudo-caixas em pares de imagem-texto. Os principais desafios na ampliação do auto-treinamento são a escolha do espaço de rótulos, a filtragem de pseudo-anotações e a eficiência do treinamento. Apresentamos o modelo OWLv2 e a receita de auto-treinamento OWL-ST, que abordam esses desafios. O OWLv2 supera o desempenho dos detectores de vocabulário aberto de última geração já em escalas de treinamento comparáveis (~10M exemplos). No entanto, com o OWL-ST, podemos escalar para mais de 1 bilhão de exemplos, resultando em uma melhoria ainda maior: Com uma arquitetura L/14, o OWL-ST melhora o AP nas classes raras do LVIS, para as quais o modelo não viu nenhuma anotação de caixa humana, de 31,2% para 44,6% (melhoria relativa de 43%). O OWL-ST desbloqueia o treinamento em escala da web para localização em mundo aberto, semelhante ao que foi visto para classificação de imagens e modelagem de linguagem.
English
Open-vocabulary object detection has benefited greatly from pretrained
vision-language models, but is still limited by the amount of available
detection training data. While detection training data can be expanded by using
Web image-text pairs as weak supervision, this has not been done at scales
comparable to image-level pretraining. Here, we scale up detection data with
self-training, which uses an existing detector to generate pseudo-box
annotations on image-text pairs. Major challenges in scaling self-training are
the choice of label space, pseudo-annotation filtering, and training
efficiency. We present the OWLv2 model and OWL-ST self-training recipe, which
address these challenges. OWLv2 surpasses the performance of previous
state-of-the-art open-vocabulary detectors already at comparable training
scales (~10M examples). However, with OWL-ST, we can scale to over 1B examples,
yielding further large improvement: With an L/14 architecture, OWL-ST improves
AP on LVIS rare classes, for which the model has seen no human box annotations,
from 31.2% to 44.6% (43% relative improvement). OWL-ST unlocks Web-scale
training for open-world localization, similar to what has been seen for image
classification and language modelling.