DaTaSeg: Укрощение универсальной модели сегментации для множества наборов данных и задач
DaTaSeg: Taming a Universal Multi-Dataset Multi-Task Segmentation Model
June 2, 2023
Авторы: Xiuye Gu, Yin Cui, Jonathan Huang, Abdullah Rashwan, Xuan Yang, Xingyi Zhou, Golnaz Ghiasi, Weicheng Kuo, Huizhong Chen, Liang-Chieh Chen, David A Ross
cs.AI
Аннотация
Наблюдая тесную взаимосвязь между задачами панорамной, семантической и инстанс-сегментации, мы предлагаем обучить универсальную многозадачную модель сегментации для нескольких наборов данных: DaTaSeg. Мы используем общее представление (предложения масок с предсказаниями классов) для всех задач. Для устранения различий между задачами применяются различные операции объединения и постобработка. Мы также используем слабое обучение, позволяя нашей модели сегментации извлекать пользу из более дешевых аннотаций в виде ограничивающих рамок. Для обмена знаниями между наборами данных мы используем текстовые эмбеддинги из одного семантического пространства в качестве классификаторов и разделяем все параметры сети между наборами данных. Мы обучаем DaTaSeg на наборах данных ADE для семантической сегментации, COCO для панорамной сегментации и Objects365 для детекции. DaTaSeg улучшает производительность на всех наборах данных, особенно на небольших, достигая 54.0 mIoU на ADE для семантической сегментации и 53.5 PQ на COCO для панорамной сегментации. DaTaSeg также позволяет осуществлять слабо контролируемый перенос знаний на задачи панорамной сегментации ADE и инстанс-сегментации Objects365. Эксперименты показывают, что DaTaSeg масштабируется с увеличением числа обучающих наборов данных и позволяет выполнять сегментацию с открытым словарем через прямой перенос. Кроме того, мы аннотировали набор данных Objects365 для инстанс-сегментации, состоящий из 1000 изображений, и планируем выпустить его в качестве публичного бенчмарка.
English
Observing the close relationship among panoptic, semantic and instance
segmentation tasks, we propose to train a universal multi-dataset multi-task
segmentation model: DaTaSeg.We use a shared representation (mask proposals with
class predictions) for all tasks. To tackle task discrepancy, we adopt
different merge operations and post-processing for different tasks. We also
leverage weak-supervision, allowing our segmentation model to benefit from
cheaper bounding box annotations. To share knowledge across datasets, we use
text embeddings from the same semantic embedding space as classifiers and share
all network parameters among datasets. We train DaTaSeg on ADE semantic, COCO
panoptic, and Objects365 detection datasets. DaTaSeg improves performance on
all datasets, especially small-scale datasets, achieving 54.0 mIoU on ADE
semantic and 53.5 PQ on COCO panoptic. DaTaSeg also enables weakly-supervised
knowledge transfer on ADE panoptic and Objects365 instance segmentation.
Experiments show DaTaSeg scales with the number of training datasets and
enables open-vocabulary segmentation through direct transfer. In addition, we
annotate an Objects365 instance segmentation set of 1,000 images and will
release it as a public benchmark.