InstaGen: Verbesserung der Objekterkennung durch Training auf synthetischen Datensätzen
InstaGen: Enhancing Object Detection by Training on Synthetic Dataset
February 8, 2024
Autoren: Chengjian Feng, Yujie Zhong, Zequn Jie, Weidi Xie, Lin Ma
cs.AI
Zusammenfassung
In diesem Artikel stellen wir ein neuartiges Paradigma vor, um die Fähigkeit von Objektdetektoren zu verbessern, beispielsweise durch die Erweiterung von Kategorien oder die Steigerung der Detektionsleistung, indem wir auf synthetischen Datensätzen trainieren, die von Diffusionsmodellen generiert werden. Konkret integrieren wir einen instanzbasierten Grounding-Head in ein vortrainiertes, generatives Diffusionsmodell, um es mit der Fähigkeit auszustatten, beliebige Instanzen in den generierten Bildern zu lokalisieren. Der Grounding-Head wird darauf trainiert, die Text-Einbettungen von Kategorienamen mit den regionalen visuellen Merkmalen des Diffusionsmodells abzugleichen, wobei die Supervision von einem Standard-Objektdetektor sowie einem neuartigen Selbsttrainingsschema für (neue) Kategorien, die vom Detektor nicht abgedeckt werden, stammt. Diese erweiterte Version des Diffusionsmodells, die wir als InstaGen bezeichnen, kann als Datensynthesizer für die Objekterkennung dienen. Wir führen umfangreiche Experimente durch, um zu zeigen, dass Objektdetektoren durch das Training auf dem synthetischen Datensatz von InstaGen verbessert werden können, wobei sie eine überlegene Leistung gegenüber bestehenden State-of-the-Art-Methoden in offenen Vokabular-Szenarien (+4,5 AP) und datenarmen Situationen (+1,2 bis 5,2 AP) demonstrieren.
English
In this paper, we introduce a novel paradigm to enhance the ability of object
detector, e.g., expanding categories or improving detection performance, by
training on synthetic dataset generated from diffusion models. Specifically, we
integrate an instance-level grounding head into a pre-trained, generative
diffusion model, to augment it with the ability of localising arbitrary
instances in the generated images. The grounding head is trained to align the
text embedding of category names with the regional visual feature of the
diffusion model, using supervision from an off-the-shelf object detector, and a
novel self-training scheme on (novel) categories not covered by the detector.
This enhanced version of diffusion model, termed as InstaGen, can serve as a
data synthesizer for object detection. We conduct thorough experiments to show
that, object detector can be enhanced while training on the synthetic dataset
from InstaGen, demonstrating superior performance over existing
state-of-the-art methods in open-vocabulary (+4.5 AP) and data-sparse (+1.2 to
5.2 AP) scenarios.