ChatPaper.aiChatPaper

InstaGen: Verbesserung der Objekterkennung durch Training auf synthetischen Datensätzen

InstaGen: Enhancing Object Detection by Training on Synthetic Dataset

February 8, 2024
Autoren: Chengjian Feng, Yujie Zhong, Zequn Jie, Weidi Xie, Lin Ma
cs.AI

Zusammenfassung

In diesem Artikel stellen wir ein neuartiges Paradigma vor, um die Fähigkeit von Objektdetektoren zu verbessern, beispielsweise durch die Erweiterung von Kategorien oder die Steigerung der Detektionsleistung, indem wir auf synthetischen Datensätzen trainieren, die von Diffusionsmodellen generiert werden. Konkret integrieren wir einen instanzbasierten Grounding-Head in ein vortrainiertes, generatives Diffusionsmodell, um es mit der Fähigkeit auszustatten, beliebige Instanzen in den generierten Bildern zu lokalisieren. Der Grounding-Head wird darauf trainiert, die Text-Einbettungen von Kategorienamen mit den regionalen visuellen Merkmalen des Diffusionsmodells abzugleichen, wobei die Supervision von einem Standard-Objektdetektor sowie einem neuartigen Selbsttrainingsschema für (neue) Kategorien, die vom Detektor nicht abgedeckt werden, stammt. Diese erweiterte Version des Diffusionsmodells, die wir als InstaGen bezeichnen, kann als Datensynthesizer für die Objekterkennung dienen. Wir führen umfangreiche Experimente durch, um zu zeigen, dass Objektdetektoren durch das Training auf dem synthetischen Datensatz von InstaGen verbessert werden können, wobei sie eine überlegene Leistung gegenüber bestehenden State-of-the-Art-Methoden in offenen Vokabular-Szenarien (+4,5 AP) und datenarmen Situationen (+1,2 bis 5,2 AP) demonstrieren.
English
In this paper, we introduce a novel paradigm to enhance the ability of object detector, e.g., expanding categories or improving detection performance, by training on synthetic dataset generated from diffusion models. Specifically, we integrate an instance-level grounding head into a pre-trained, generative diffusion model, to augment it with the ability of localising arbitrary instances in the generated images. The grounding head is trained to align the text embedding of category names with the regional visual feature of the diffusion model, using supervision from an off-the-shelf object detector, and a novel self-training scheme on (novel) categories not covered by the detector. This enhanced version of diffusion model, termed as InstaGen, can serve as a data synthesizer for object detection. We conduct thorough experiments to show that, object detector can be enhanced while training on the synthetic dataset from InstaGen, demonstrating superior performance over existing state-of-the-art methods in open-vocabulary (+4.5 AP) and data-sparse (+1.2 to 5.2 AP) scenarios.
PDF141December 15, 2024