ChatPaper.aiChatPaper

InstaGen: Aprimorando a Detecção de Objetos por meio de Treinamento em Conjunto de Dados Sintético

InstaGen: Enhancing Object Detection by Training on Synthetic Dataset

February 8, 2024
Autores: Chengjian Feng, Yujie Zhong, Zequn Jie, Weidi Xie, Lin Ma
cs.AI

Resumo

Neste artigo, introduzimos um novo paradigma para aprimorar a capacidade de detectores de objetos, como expandir categorias ou melhorar o desempenho de detecção, por meio do treinamento em um conjunto de dados sintéticos gerados por modelos de difusão. Especificamente, integramos um cabeçalho de ancoragem em nível de instância em um modelo de difusão generativo pré-treinado, para ampliar sua capacidade de localizar instâncias arbitrárias nas imagens geradas. O cabeçalho de ancoragem é treinado para alinhar a incorporação de texto dos nomes das categorias com a característica visual regional do modelo de difusão, utilizando supervisão de um detector de objetos pronto para uso e um novo esquema de auto-treinamento em categorias (novas) não cobertas pelo detector. Esta versão aprimorada do modelo de difusão, denominada InstaGen, pode servir como um sintetizador de dados para detecção de objetos. Realizamos experimentos detalhados para mostrar que o detector de objetos pode ser aprimorado ao treinar no conjunto de dados sintéticos do InstaGen, demonstrando desempenho superior em relação aos métodos state-of-the-art existentes em cenários de vocabulário aberto (+4,5 AP) e de dados escassos (+1,2 a 5,2 AP).
English
In this paper, we introduce a novel paradigm to enhance the ability of object detector, e.g., expanding categories or improving detection performance, by training on synthetic dataset generated from diffusion models. Specifically, we integrate an instance-level grounding head into a pre-trained, generative diffusion model, to augment it with the ability of localising arbitrary instances in the generated images. The grounding head is trained to align the text embedding of category names with the regional visual feature of the diffusion model, using supervision from an off-the-shelf object detector, and a novel self-training scheme on (novel) categories not covered by the detector. This enhanced version of diffusion model, termed as InstaGen, can serve as a data synthesizer for object detection. We conduct thorough experiments to show that, object detector can be enhanced while training on the synthetic dataset from InstaGen, demonstrating superior performance over existing state-of-the-art methods in open-vocabulary (+4.5 AP) and data-sparse (+1.2 to 5.2 AP) scenarios.
PDF141December 15, 2024