ChatPaper.aiChatPaper

Gen2Det: Generar para Detectar

Gen2Det: Generate to Detect

December 7, 2023
Autores: Saksham Suri, Fanyi Xiao, Animesh Sinha, Sean Chang Culatana, Raghuraman Krishnamoorthi, Chenchen Zhu, Abhinav Shrivastava
cs.AI

Resumen

Recientemente, los modelos de difusión han mostrado mejoras en la calidad de imágenes sintéticas, así como un mayor control en la generación. Motivamos y presentamos Gen2Det, una canalización modular y sencilla para crear datos de entrenamiento sintéticos para detección de objetos de manera gratuita, aprovechando métodos de generación de imágenes anclados de última generación. A diferencia de trabajos existentes que generan instancias de objetos individuales, requieren identificar el primer plano y luego pegarlo en otras imágenes, simplificamos el proceso generando directamente imágenes centradas en escenas. Además de los datos sintéticos, Gen2Det también propone un conjunto de técnicas para aprovechar al máximo los datos generados, incluyendo filtrado a nivel de imagen, filtrado a nivel de instancia y una mejor receta de entrenamiento para contrarrestar las imperfecciones en la generación. Utilizando Gen2Det, mostramos mejoras significativas en tareas de detección y segmentación de objetos en diversos escenarios, independientemente de los métodos de detección. En el escenario de detección de cola larga en LVIS, Gen2Det mejora considerablemente el rendimiento en categorías raras, mientras que también mejora significativamente el rendimiento en otras categorías, por ejemplo, observamos una mejora de 2.13 Box AP y 1.84 Mask AP sobre el entrenamiento solo con datos reales en LVIS con Mask R-CNN. En el escenario de bajo volumen de datos en COCO, Gen2Det mejora consistentemente tanto Box AP como Mask AP en 2.27 y 1.85 puntos, respectivamente. En el escenario de detección más general, Gen2Det sigue demostrando ganancias robustas en el rendimiento, por ejemplo, mejora Box AP y Mask AP en COCO en 0.45 y 0.32 puntos.
English
Recently diffusion models have shown improvement in synthetic image quality as well as better control in generation. We motivate and present Gen2Det, a simple modular pipeline to create synthetic training data for object detection for free by leveraging state-of-the-art grounded image generation methods. Unlike existing works which generate individual object instances, require identifying foreground followed by pasting on other images, we simplify to directly generating scene-centric images. In addition to the synthetic data, Gen2Det also proposes a suite of techniques to best utilize the generated data, including image-level filtering, instance-level filtering, and better training recipe to account for imperfections in the generation. Using Gen2Det, we show healthy improvements on object detection and segmentation tasks under various settings and agnostic to detection methods. In the long-tailed detection setting on LVIS, Gen2Det improves the performance on rare categories by a large margin while also significantly improving the performance on other categories, e.g. we see an improvement of 2.13 Box AP and 1.84 Mask AP over just training on real data on LVIS with Mask R-CNN. In the low-data regime setting on COCO, Gen2Det consistently improves both Box and Mask AP by 2.27 and 1.85 points. In the most general detection setting, Gen2Det still demonstrates robust performance gains, e.g. it improves the Box and Mask AP on COCO by 0.45 and 0.32 points.
PDF100December 15, 2024