InstaGen: Verbetering van Objectdetectie door Training op Synthetische Datasets
InstaGen: Enhancing Object Detection by Training on Synthetic Dataset
February 8, 2024
Auteurs: Chengjian Feng, Yujie Zhong, Zequn Jie, Weidi Xie, Lin Ma
cs.AI
Samenvatting
In dit artikel introduceren we een nieuw paradigma om het vermogen van objectdetectoren te verbeteren, bijvoorbeeld door het uitbreiden van categorieën of het verbeteren van de detectieprestaties, door te trainen op een synthetische dataset gegenereerd door diffusiemodellen. Specifiek integreren we een instance-level grounding head in een vooraf getraind, generatief diffusiemodel, om het uit te rusten met het vermogen om willekeurige instanties in de gegenereerde afbeeldingen te lokaliseren. De grounding head wordt getraind om de tekstembedding van categorienamen uit te lijnen met de regionale visuele kenmerken van het diffusiemodel, met behulp van supervisie van een kant-en-klare objectdetector en een nieuw zelf-trainingsschema voor (nieuwe) categorieën die niet door de detector worden gedekt. Deze verbeterde versie van het diffusiemodel, genaamd InstaGen, kan dienen als een datasynthesizer voor objectdetectie. We voeren uitgebreide experimenten uit om aan te tonen dat objectdetectoren kunnen worden verbeterd door te trainen op de synthetische dataset van InstaGen, wat superieure prestaties laat zien ten opzichte van bestaande state-of-the-art methoden in open-vocabulary (+4,5 AP) en data-schaarse (+1,2 tot 5,2 AP) scenario's.
English
In this paper, we introduce a novel paradigm to enhance the ability of object
detector, e.g., expanding categories or improving detection performance, by
training on synthetic dataset generated from diffusion models. Specifically, we
integrate an instance-level grounding head into a pre-trained, generative
diffusion model, to augment it with the ability of localising arbitrary
instances in the generated images. The grounding head is trained to align the
text embedding of category names with the regional visual feature of the
diffusion model, using supervision from an off-the-shelf object detector, and a
novel self-training scheme on (novel) categories not covered by the detector.
This enhanced version of diffusion model, termed as InstaGen, can serve as a
data synthesizer for object detection. We conduct thorough experiments to show
that, object detector can be enhanced while training on the synthetic dataset
from InstaGen, demonstrating superior performance over existing
state-of-the-art methods in open-vocabulary (+4.5 AP) and data-sparse (+1.2 to
5.2 AP) scenarios.