ChatPaper.aiChatPaper

InstaGen : Amélioration de la détection d'objets par entraînement sur un ensemble de données synthétiques

InstaGen: Enhancing Object Detection by Training on Synthetic Dataset

February 8, 2024
Auteurs: Chengjian Feng, Yujie Zhong, Zequn Jie, Weidi Xie, Lin Ma
cs.AI

Résumé

Dans cet article, nous introduisons un nouveau paradigme visant à améliorer les capacités d'un détecteur d'objets, par exemple en élargissant les catégories ou en optimisant les performances de détection, en l'entraînant sur un ensemble de données synthétiques générées par des modèles de diffusion. Plus précisément, nous intégrons une tête d'ancrage au niveau des instances dans un modèle de diffusion génératif pré-entraîné, afin de lui conférer la capacité de localiser des instances arbitraires dans les images générées. Cette tête d'ancrage est entraînée à aligner l'encodage textuel des noms de catégories avec les caractéristiques visuelles régionales du modèle de diffusion, en utilisant une supervision provenant d'un détecteur d'objets standard et un nouveau schéma d'auto-apprentissage pour les catégories (nouvelles) non couvertes par le détecteur. Cette version améliorée du modèle de diffusion, appelée InstaGen, peut servir de synthétiseur de données pour la détection d'objets. Nous menons des expériences approfondies pour montrer qu'un détecteur d'objets peut être amélioré en s'entraînant sur l'ensemble de données synthétiques généré par InstaGen, démontrant des performances supérieures aux méthodes de pointe existantes dans des scénarios de vocabulaire ouvert (+4,5 AP) et de données limitées (+1,2 à 5,2 AP).
English
In this paper, we introduce a novel paradigm to enhance the ability of object detector, e.g., expanding categories or improving detection performance, by training on synthetic dataset generated from diffusion models. Specifically, we integrate an instance-level grounding head into a pre-trained, generative diffusion model, to augment it with the ability of localising arbitrary instances in the generated images. The grounding head is trained to align the text embedding of category names with the regional visual feature of the diffusion model, using supervision from an off-the-shelf object detector, and a novel self-training scheme on (novel) categories not covered by the detector. This enhanced version of diffusion model, termed as InstaGen, can serve as a data synthesizer for object detection. We conduct thorough experiments to show that, object detector can be enhanced while training on the synthetic dataset from InstaGen, demonstrating superior performance over existing state-of-the-art methods in open-vocabulary (+4.5 AP) and data-sparse (+1.2 to 5.2 AP) scenarios.
PDF141December 15, 2024