ChatPaper.aiChatPaper

InstaGen:合成データセットでの学習による物体検出の強化

InstaGen: Enhancing Object Detection by Training on Synthetic Dataset

February 8, 2024
著者: Chengjian Feng, Yujie Zhong, Zequn Jie, Weidi Xie, Lin Ma
cs.AI

要旨

本論文では、拡散モデルから生成された合成データセットを用いて、物体検出器の能力(例えば、カテゴリの拡張や検出性能の向上)を強化する新しいパラダイムを提案する。具体的には、事前学習済みの生成拡散モデルにインスタンスレベルのグラウンディングヘッドを統合し、生成画像内の任意のインスタンスを位置特定する能力を付与する。このグラウンディングヘッドは、既存の物体検出器からの教師信号と、検出器がカバーしない(新規)カテゴリに対する新たな自己学習スキームを用いて、カテゴリ名のテキスト埋め込みと拡散モデルの領域視覚特徴を整合させるように訓練される。この強化版拡散モデルはInstaGenと呼ばれ、物体検出のためのデータ合成器として機能する。我々は徹底的な実験を行い、InstaGenから生成された合成データセットで訓練することで物体検出器が強化され、オープン語彙(+4.5 AP)およびデータ希薄(+1.2から5.2 AP)シナリオにおいて、既存の最先端手法を上回る性能を示すことを実証した。
English
In this paper, we introduce a novel paradigm to enhance the ability of object detector, e.g., expanding categories or improving detection performance, by training on synthetic dataset generated from diffusion models. Specifically, we integrate an instance-level grounding head into a pre-trained, generative diffusion model, to augment it with the ability of localising arbitrary instances in the generated images. The grounding head is trained to align the text embedding of category names with the regional visual feature of the diffusion model, using supervision from an off-the-shelf object detector, and a novel self-training scheme on (novel) categories not covered by the detector. This enhanced version of diffusion model, termed as InstaGen, can serve as a data synthesizer for object detection. We conduct thorough experiments to show that, object detector can be enhanced while training on the synthetic dataset from InstaGen, demonstrating superior performance over existing state-of-the-art methods in open-vocabulary (+4.5 AP) and data-sparse (+1.2 to 5.2 AP) scenarios.
PDF141December 15, 2024