DaTaSeg: Укрощение универсальной модели сегментации для множества наборов данных и задач

Аннотация

Наблюдая тесную взаимосвязь между задачами панорамной, семантической и инстанс-сегментации, мы предлагаем обучить универсальную многозадачную модель сегментации для нескольких наборов данных: DaTaSeg. Мы используем общее представление (предложения масок с предсказаниями классов) для всех задач. Для устранения различий между задачами применяются различные операции объединения и постобработка. Мы также используем слабое обучение, позволяя нашей модели сегментации извлекать пользу из более дешевых аннотаций в виде ограничивающих рамок. Для обмена знаниями между наборами данных мы используем текстовые эмбеддинги из одного семантического пространства в качестве классификаторов и разделяем все параметры сети между наборами данных. Мы обучаем DaTaSeg на наборах данных ADE для семантической сегментации, COCO для панорамной сегментации и Objects365 для детекции. DaTaSeg улучшает производительность на всех наборах данных, особенно на небольших, достигая 54.0 mIoU на ADE для семантической сегментации и 53.5 PQ на COCO для панорамной сегментации. DaTaSeg также позволяет осуществлять слабо контролируемый перенос знаний на задачи панорамной сегментации ADE и инстанс-сегментации Objects365. Эксперименты показывают, что DaTaSeg масштабируется с увеличением числа обучающих наборов данных и позволяет выполнять сегментацию с открытым словарем через прямой перенос. Кроме того, мы аннотировали набор данных Objects365 для инстанс-сегментации, состоящий из 1000 изображений, и планируем выпустить его в качестве публичного бенчмарка.

English

Observing the close relationship among panoptic, semantic and instance segmentation tasks, we propose to train a universal multi-dataset multi-task segmentation model: DaTaSeg.We use a shared representation (mask proposals with class predictions) for all tasks. To tackle task discrepancy, we adopt different merge operations and post-processing for different tasks. We also leverage weak-supervision, allowing our segmentation model to benefit from cheaper bounding box annotations. To share knowledge across datasets, we use text embeddings from the same semantic embedding space as classifiers and share all network parameters among datasets. We train DaTaSeg on ADE semantic, COCO panoptic, and Objects365 detection datasets. DaTaSeg improves performance on all datasets, especially small-scale datasets, achieving 54.0 mIoU on ADE semantic and 53.5 PQ on COCO panoptic. DaTaSeg also enables weakly-supervised knowledge transfer on ADE panoptic and Objects365 instance segmentation. Experiments show DaTaSeg scales with the number of training datasets and enables open-vocabulary segmentation through direct transfer. In addition, we annotate an Objects365 instance segmentation set of 1,000 images and will release it as a public benchmark.

DaTaSeg: Укрощение универсальной модели сегментации для множества наборов данных и задач

DaTaSeg: Taming a Universal Multi-Dataset Multi-Task Segmentation Model

Аннотация

Support