オープンボキャブラリー物体検出のためのマルチモーダル分類器
Multi-Modal Classifiers for Open-Vocabulary Object Detection
June 8, 2023
著者: Prannay Kaul, Weidi Xie, Andrew Zisserman
cs.AI
要旨
本論文の目的は、オープン語彙物体検出(OVOD)の実現である。これは、学習時に見たカテゴリのセットを超えた物体を検出できるモデルを構築し、推論時にユーザーが興味のあるカテゴリを指定できるようにするもので、モデルの再学習を必要としない。我々は標準的な2段階物体検出器のアーキテクチャを採用し、新規カテゴリを指定する3つの方法を探求する:言語記述によるもの、画像例によるもの、または両者の組み合わせによるものである。我々は3つの貢献を行う:第一に、大規模言語モデル(LLM)をプロンプトして物体クラスの有益な言語記述を生成し、強力なテキストベースの分類器を構築する;第二に、任意の数の画像を入力として取り込むことができる視覚的アグリゲータを画像例に適用し、視覚ベースの分類器を形成する;第三に、言語記述と画像例からの情報を融合するシンプルな方法を提供し、マルチモーダル分類器を実現する。挑戦的なLVISオープン語彙ベンチマークで評価した結果、(i) 我々のテキストベース分類器は、これまでのすべてのOVOD研究を上回る性能を示す;(ii) 我々の視覚ベース分類器は、従来の研究におけるテキストベース分類器と同等の性能を発揮する;(iii) マルチモーダル分類器を使用すると、単一のモダリティよりも優れた性能を発揮する;そして最後に、(iv) 我々のテキストベースおよびマルチモーダル分類器は、完全教師あり検出器よりも優れた性能を達成する。
English
The goal of this paper is open-vocabulary object detection (OVOD)
x2013 building a model that can detect objects beyond the set of
categories seen at training, thus enabling the user to specify categories of
interest at inference without the need for model retraining. We adopt a
standard two-stage object detector architecture, and explore three ways for
specifying novel categories: via language descriptions, via image exemplars, or
via a combination of the two. We make three contributions: first, we prompt a
large language model (LLM) to generate informative language descriptions for
object classes, and construct powerful text-based classifiers; second, we
employ a visual aggregator on image exemplars that can ingest any number of
images as input, forming vision-based classifiers; and third, we provide a
simple method to fuse information from language descriptions and image
exemplars, yielding a multi-modal classifier. When evaluating on the
challenging LVIS open-vocabulary benchmark we demonstrate that: (i) our
text-based classifiers outperform all previous OVOD works; (ii) our
vision-based classifiers perform as well as text-based classifiers in prior
work; (iii) using multi-modal classifiers perform better than either modality
alone; and finally, (iv) our text-based and multi-modal classifiers yield
better performance than a fully-supervised detector.