InstaGen: Mejora de la Detección de Objetos mediante Entrenamiento en Conjuntos de Datos Sintéticos

Resumen

En este artículo, presentamos un nuevo paradigma para mejorar la capacidad de los detectores de objetos, por ejemplo, expandiendo categorías o mejorando el rendimiento de detección, mediante el entrenamiento en un conjunto de datos sintéticos generados a partir de modelos de difusión. Específicamente, integramos un cabezal de anclaje a nivel de instancia en un modelo generativo de difusión preentrenado, para dotarlo de la capacidad de localizar instancias arbitrarias en las imágenes generadas. El cabezal de anclaje se entrena para alinear la incrustación de texto de los nombres de las categorías con la característica visual regional del modelo de difusión, utilizando supervisión de un detector de objetos estándar y un novedoso esquema de autoentrenamiento en categorías (nuevas) no cubiertas por el detector. Esta versión mejorada del modelo de difusión, denominada InstaGen, puede servir como un sintetizador de datos para la detección de objetos. Realizamos experimentos exhaustivos para demostrar que el detector de objetos puede mejorarse al entrenarse en el conjunto de datos sintéticos de InstaGen, mostrando un rendimiento superior sobre los métodos más avanzados existentes en escenarios de vocabulario abierto (+4.5 AP) y con datos escasos (+1.2 a 5.2 AP).

English

In this paper, we introduce a novel paradigm to enhance the ability of object detector, e.g., expanding categories or improving detection performance, by training on synthetic dataset generated from diffusion models. Specifically, we integrate an instance-level grounding head into a pre-trained, generative diffusion model, to augment it with the ability of localising arbitrary instances in the generated images. The grounding head is trained to align the text embedding of category names with the regional visual feature of the diffusion model, using supervision from an off-the-shelf object detector, and a novel self-training scheme on (novel) categories not covered by the detector. This enhanced version of diffusion model, termed as InstaGen, can serve as a data synthesizer for object detection. We conduct thorough experiments to show that, object detector can be enhanced while training on the synthetic dataset from InstaGen, demonstrating superior performance over existing state-of-the-art methods in open-vocabulary (+4.5 AP) and data-sparse (+1.2 to 5.2 AP) scenarios.

InstaGen: Mejora de la Detección de Objetos mediante Entrenamiento en Conjuntos de Datos Sintéticos

InstaGen: Enhancing Object Detection by Training on Synthetic Dataset

Resumen

Support