InstaGen: Улучшение обнаружения объектов за счет обучения на синтетическом наборе данных
InstaGen: Enhancing Object Detection by Training on Synthetic Dataset
February 8, 2024
Авторы: Chengjian Feng, Yujie Zhong, Zequn Jie, Weidi Xie, Lin Ma
cs.AI
Аннотация
В данной статье мы представляем новую парадигму для улучшения способностей детектора объектов, например, расширения категорий или повышения качества обнаружения, путем обучения на синтетических данных, сгенерированных с использованием диффузионных моделей. В частности, мы интегрируем модуль локализации на уровне экземпляров в предварительно обученную генеративную диффузионную модель, чтобы наделить ее способностью локализовать произвольные объекты на сгенерированных изображениях. Этот модуль обучается согласовывать текстовые эмбеддинги названий категорий с региональными визуальными признаками диффузионной модели, используя данные от готового детектора объектов и новую схему самообучения на (новых) категориях, не охваченных детектором. Улучшенная версия диффузионной модели, названная InstaGen, может служить генератором данных для задач детекции объектов. Мы проводим всесторонние эксперименты, чтобы показать, что детектор объектов может быть улучшен при обучении на синтетических данных от InstaGen, демонстрируя превосходство над современными методами в сценариях с открытым словарем (+4.5 AP) и при ограниченных данных (+1.2 до 5.2 AP).
English
In this paper, we introduce a novel paradigm to enhance the ability of object
detector, e.g., expanding categories or improving detection performance, by
training on synthetic dataset generated from diffusion models. Specifically, we
integrate an instance-level grounding head into a pre-trained, generative
diffusion model, to augment it with the ability of localising arbitrary
instances in the generated images. The grounding head is trained to align the
text embedding of category names with the regional visual feature of the
diffusion model, using supervision from an off-the-shelf object detector, and a
novel self-training scheme on (novel) categories not covered by the detector.
This enhanced version of diffusion model, termed as InstaGen, can serve as a
data synthesizer for object detection. We conduct thorough experiments to show
that, object detector can be enhanced while training on the synthetic dataset
from InstaGen, demonstrating superior performance over existing
state-of-the-art methods in open-vocabulary (+4.5 AP) and data-sparse (+1.2 to
5.2 AP) scenarios.