오픈-보컬러리 객체 탐지를 위한 멀티모달 분류기
Multi-Modal Classifiers for Open-Vocabulary Object Detection
June 8, 2023
저자: Prannay Kaul, Weidi Xie, Andrew Zisserman
cs.AI
초록
본 논문의 목표는 개방형 어휘 객체 탐지(Open-Vocabulary Object Detection, OVOD)를 구현하는 것으로, 이는 학습 과정에서 접한 범주를 넘어서는 객체를 탐지할 수 있는 모델을 구축하여 사용자가 모델 재학습 없이도 추론 단계에서 관심 있는 범주를 지정할 수 있도록 하는 것이다. 우리는 표준 2단계 객체 탐지기 아키텍처를 채택하고, 새로운 범주를 지정하는 세 가지 방법을 탐구한다: 언어 설명을 통한 방법, 이미지 예시를 통한 방법, 그리고 이 둘을 결합한 방법. 우리는 세 가지 주요 기여를 한다: 첫째, 대형 언어 모델(Large Language Model, LLM)을 활용하여 객체 클래스에 대한 정보성 높은 언어 설명을 생성하고, 강력한 텍스트 기반 분류기를 구축한다; 둘째, 이미지 예시에 대한 시각적 집계기를 도입하여 임의의 수의 이미지를 입력으로 처리할 수 있도록 하여 시각 기반 분류기를 형성한다; 셋째, 언어 설명과 이미지 예시로부터 정보를 융합하는 간단한 방법을 제공하여 다중 모달 분류기를 구현한다. 도전적인 LVIS 개방형 어휘 벤치마크에서 평가한 결과, 우리는 다음과 같은 점을 입증한다: (i) 우리의 텍스트 기반 분류기는 이전의 모든 OVOD 연구를 능가한다; (ii) 우리의 시각 기반 분류기는 이전 연구의 텍스트 기반 분류기와 동등한 성능을 보인다; (iii) 다중 모달 분류기를 사용하는 것이 단일 모달리티만 사용하는 것보다 더 나은 성능을 보인다; 마지막으로, (iv) 우리의 텍스트 기반 및 다중 모달 분류기는 완전 지도 학습 탐지기보다 더 나은 성능을 보인다.
English
The goal of this paper is open-vocabulary object detection (OVOD)
x2013 building a model that can detect objects beyond the set of
categories seen at training, thus enabling the user to specify categories of
interest at inference without the need for model retraining. We adopt a
standard two-stage object detector architecture, and explore three ways for
specifying novel categories: via language descriptions, via image exemplars, or
via a combination of the two. We make three contributions: first, we prompt a
large language model (LLM) to generate informative language descriptions for
object classes, and construct powerful text-based classifiers; second, we
employ a visual aggregator on image exemplars that can ingest any number of
images as input, forming vision-based classifiers; and third, we provide a
simple method to fuse information from language descriptions and image
exemplars, yielding a multi-modal classifier. When evaluating on the
challenging LVIS open-vocabulary benchmark we demonstrate that: (i) our
text-based classifiers outperform all previous OVOD works; (ii) our
vision-based classifiers perform as well as text-based classifiers in prior
work; (iii) using multi-modal classifiers perform better than either modality
alone; and finally, (iv) our text-based and multi-modal classifiers yield
better performance than a fully-supervised detector.