InstaGen: Mejora de la Detección de Objetos mediante Entrenamiento en Conjuntos de Datos Sintéticos
InstaGen: Enhancing Object Detection by Training on Synthetic Dataset
February 8, 2024
Autores: Chengjian Feng, Yujie Zhong, Zequn Jie, Weidi Xie, Lin Ma
cs.AI
Resumen
En este artículo, presentamos un nuevo paradigma para mejorar la capacidad de los detectores de objetos, por ejemplo, expandiendo categorías o mejorando el rendimiento de detección, mediante el entrenamiento en un conjunto de datos sintéticos generados a partir de modelos de difusión. Específicamente, integramos un cabezal de anclaje a nivel de instancia en un modelo generativo de difusión preentrenado, para dotarlo de la capacidad de localizar instancias arbitrarias en las imágenes generadas. El cabezal de anclaje se entrena para alinear la incrustación de texto de los nombres de las categorías con la característica visual regional del modelo de difusión, utilizando supervisión de un detector de objetos estándar y un novedoso esquema de autoentrenamiento en categorías (nuevas) no cubiertas por el detector. Esta versión mejorada del modelo de difusión, denominada InstaGen, puede servir como un sintetizador de datos para la detección de objetos. Realizamos experimentos exhaustivos para demostrar que el detector de objetos puede mejorarse al entrenarse en el conjunto de datos sintéticos de InstaGen, mostrando un rendimiento superior sobre los métodos más avanzados existentes en escenarios de vocabulario abierto (+4.5 AP) y con datos escasos (+1.2 a 5.2 AP).
English
In this paper, we introduce a novel paradigm to enhance the ability of object
detector, e.g., expanding categories or improving detection performance, by
training on synthetic dataset generated from diffusion models. Specifically, we
integrate an instance-level grounding head into a pre-trained, generative
diffusion model, to augment it with the ability of localising arbitrary
instances in the generated images. The grounding head is trained to align the
text embedding of category names with the regional visual feature of the
diffusion model, using supervision from an off-the-shelf object detector, and a
novel self-training scheme on (novel) categories not covered by the detector.
This enhanced version of diffusion model, termed as InstaGen, can serve as a
data synthesizer for object detection. We conduct thorough experiments to show
that, object detector can be enhanced while training on the synthetic dataset
from InstaGen, demonstrating superior performance over existing
state-of-the-art methods in open-vocabulary (+4.5 AP) and data-sparse (+1.2 to
5.2 AP) scenarios.