Gen2Det : Générer pour Détecter
Gen2Det: Generate to Detect
December 7, 2023
Auteurs: Saksham Suri, Fanyi Xiao, Animesh Sinha, Sean Chang Culatana, Raghuraman Krishnamoorthi, Chenchen Zhu, Abhinav Shrivastava
cs.AI
Résumé
Récemment, les modèles de diffusion ont montré des améliorations dans la qualité des images synthétiques ainsi qu'un meilleur contrôle de la génération. Nous motivons et présentons Gen2Det, un pipeline modulaire simple pour créer gratuitement des données d'entraînement synthétiques pour la détection d'objets en exploitant les méthodes de génération d'images ancrées les plus récentes. Contrairement aux travaux existants qui génèrent des instances d'objets individuelles, nécessitant l'identification du premier plan suivie d'un collage sur d'autres images, nous simplifions en générant directement des images centrées sur des scènes. En plus des données synthétiques, Gen2Det propose également un ensemble de techniques pour exploiter au mieux les données générées, incluant le filtrage au niveau de l'image, le filtrage au niveau de l'instance, et une meilleure recette d'entraînement pour tenir compte des imperfections de la génération. En utilisant Gen2Det, nous montrons des améliorations significatives dans les tâches de détection et de segmentation d'objets dans divers contextes, indépendamment des méthodes de détection. Dans le cadre de la détection à longue traîne sur LVIS, Gen2Det améliore considérablement les performances sur les catégories rares tout en améliorant également de manière significative les performances sur les autres catégories, par exemple, nous observons une amélioration de 2,13 AP en boîte et 1,84 AP en masque par rapport à l'entraînement uniquement sur des données réelles avec Mask R-CNN sur LVIS. Dans le régime de faible quantité de données sur COCO, Gen2Det améliore systématiquement les AP en boîte et en masque de 2,27 et 1,85 points respectivement. Dans le cadre le plus général de la détection, Gen2Det démontre toujours des gains de performance robustes, par exemple, il améliore les AP en boîte et en masque sur COCO de 0,45 et 0,32 points respectivement.
English
Recently diffusion models have shown improvement in synthetic image quality
as well as better control in generation. We motivate and present Gen2Det, a
simple modular pipeline to create synthetic training data for object detection
for free by leveraging state-of-the-art grounded image generation methods.
Unlike existing works which generate individual object instances, require
identifying foreground followed by pasting on other images, we simplify to
directly generating scene-centric images. In addition to the synthetic data,
Gen2Det also proposes a suite of techniques to best utilize the generated data,
including image-level filtering, instance-level filtering, and better training
recipe to account for imperfections in the generation. Using Gen2Det, we show
healthy improvements on object detection and segmentation tasks under various
settings and agnostic to detection methods. In the long-tailed detection
setting on LVIS, Gen2Det improves the performance on rare categories by a large
margin while also significantly improving the performance on other categories,
e.g. we see an improvement of 2.13 Box AP and 1.84 Mask AP over just training
on real data on LVIS with Mask R-CNN. In the low-data regime setting on COCO,
Gen2Det consistently improves both Box and Mask AP by 2.27 and 1.85 points. In
the most general detection setting, Gen2Det still demonstrates robust
performance gains, e.g. it improves the Box and Mask AP on COCO by 0.45 and
0.32 points.