InstaGen: Miglioramento del Rilevamento di Oggetti attraverso l'Addestramento su un Dataset Sintetico

Abstract

In questo articolo, introduciamo un nuovo paradigma per migliorare le capacità di un rilevatore di oggetti, ad esempio espandendo le categorie o migliorando le prestazioni di rilevamento, addestrandolo su un dataset sintetico generato da modelli di diffusione. Nello specifico, integriamo una testina di grounding a livello di istanza in un modello generativo di diffusione pre-addestrato, per dotarlo della capacità di localizzare istanze arbitrarie nelle immagini generate. La testina di grounding viene addestrata per allineare l'embedding testuale dei nomi delle categorie con la caratteristica visiva regionale del modello di diffusione, utilizzando la supervisione di un rilevatore di oggetti preesistente e un nuovo schema di auto-addestramento su categorie (nuove) non coperte dal rilevatore. Questa versione potenziata del modello di diffusione, denominata InstaGen, può fungere da sintetizzatore di dati per il rilevamento di oggetti. Condurremo esperimenti approfonditi per dimostrare che un rilevatore di oggetti può essere migliorato addestrandosi sul dataset sintetico generato da InstaGen, mostrando prestazioni superiori rispetto ai metodi all'avanguardia esistenti in scenari di vocabolario aperto (+4,5 AP) e con dati scarsi (+1,2 a 5,2 AP).

English

In this paper, we introduce a novel paradigm to enhance the ability of object detector, e.g., expanding categories or improving detection performance, by training on synthetic dataset generated from diffusion models. Specifically, we integrate an instance-level grounding head into a pre-trained, generative diffusion model, to augment it with the ability of localising arbitrary instances in the generated images. The grounding head is trained to align the text embedding of category names with the regional visual feature of the diffusion model, using supervision from an off-the-shelf object detector, and a novel self-training scheme on (novel) categories not covered by the detector. This enhanced version of diffusion model, termed as InstaGen, can serve as a data synthesizer for object detection. We conduct thorough experiments to show that, object detector can be enhanced while training on the synthetic dataset from InstaGen, demonstrating superior performance over existing state-of-the-art methods in open-vocabulary (+4.5 AP) and data-sparse (+1.2 to 5.2 AP) scenarios.

InstaGen: Miglioramento del Rilevamento di Oggetti attraverso l'Addestramento su un Dataset Sintetico

InstaGen: Enhancing Object Detection by Training on Synthetic Dataset

Abstract

Support