オープン語彙物体検出のスケーリング
Scaling Open-Vocabulary Object Detection
June 16, 2023
著者: Matthias Minderer, Alexey Gritsenko, Neil Houlsby
cs.AI
要旨
オープン語彙物体検出は、事前学習された視覚言語モデルから大きな恩恵を受けているが、利用可能な検出トレーニングデータの量によって依然として制限されている。検出トレーニングデータは、Web上の画像-テキストペアを弱い教師として使用することで拡張できるが、これは画像レベルの事前学習と同等の規模では行われていない。本研究では、既存の検出器を使用して画像-テキストペアに疑似ボックスアノテーションを生成する自己学習によって検出データをスケールアップする。自己学習をスケールアップする際の主要な課題は、ラベル空間の選択、疑似アノテーションフィルタリング、およびトレーニング効率である。これらの課題に対処するために、OWLv2モデルとOWL-ST自己学習レシピを提案する。OWLv2は、同等のトレーニング規模(約1000万例)において、以前の最先端のオープン語彙検出器の性能をすでに上回っている。しかし、OWL-STを使用することで、10億例以上にスケールアップすることが可能であり、さらなる大幅な改善が得られる:L/14アーキテクチャを使用した場合、OWL-STは、人間のボックスアノテーションが一切ないLVISの希少クラスにおけるAPを31.2%から44.6%に改善する(43%の相対的改善)。OWL-STは、画像分類や言語モデリングで見られたような、オープンワールドローカライゼーションのためのWebスケールのトレーニングを可能にする。
English
Open-vocabulary object detection has benefited greatly from pretrained
vision-language models, but is still limited by the amount of available
detection training data. While detection training data can be expanded by using
Web image-text pairs as weak supervision, this has not been done at scales
comparable to image-level pretraining. Here, we scale up detection data with
self-training, which uses an existing detector to generate pseudo-box
annotations on image-text pairs. Major challenges in scaling self-training are
the choice of label space, pseudo-annotation filtering, and training
efficiency. We present the OWLv2 model and OWL-ST self-training recipe, which
address these challenges. OWLv2 surpasses the performance of previous
state-of-the-art open-vocabulary detectors already at comparable training
scales (~10M examples). However, with OWL-ST, we can scale to over 1B examples,
yielding further large improvement: With an L/14 architecture, OWL-ST improves
AP on LVIS rare classes, for which the model has seen no human box annotations,
from 31.2% to 44.6% (43% relative improvement). OWL-ST unlocks Web-scale
training for open-world localization, similar to what has been seen for image
classification and language modelling.