ChatPaper.aiChatPaper

DaTaSeg: ユニバーサルなマルチデータセット・マルチタスクセグメンテーションモデルの制御

DaTaSeg: Taming a Universal Multi-Dataset Multi-Task Segmentation Model

June 2, 2023
著者: Xiuye Gu, Yin Cui, Jonathan Huang, Abdullah Rashwan, Xuan Yang, Xingyi Zhou, Golnaz Ghiasi, Weicheng Kuo, Huizhong Chen, Liang-Chieh Chen, David A Ross
cs.AI

要旨

パノプティック、セマンティック、インスタンスセグメンテーションタスク間の密接な関係を観察し、我々はユニバーサルなマルチデータセット・マルチタスクセグメンテーションモデル「DaTaSeg」を提案する。全てのタスクに対して共有表現(クラス予測付きマスク提案)を使用する。タスク間の差異に対処するため、異なるタスクに対して異なるマージ操作と後処理を採用する。また、弱教師あり学習を活用し、セグメンテーションモデルがより安価なバウンディングボックスアノテーションから恩恵を受けられるようにする。データセット間で知識を共有するため、同じセマンティック埋め込み空間からのテキスト埋め込みを分類器として使用し、全てのネットワークパラメータをデータセット間で共有する。DaTaSegをADEセマンティック、COCOパノプティック、Objects365検出データセットで学習させる。DaTaSegは全てのデータセット、特に小規模データセットにおいて性能を向上させ、ADEセマンティックで54.0 mIoU、COCOパノプティックで53.5 PQを達成する。DaTaSegはまた、ADEパノプティックとObjects365インスタンスセグメンテーションにおいて弱教師あり知識転移を可能にする。実験により、DaTaSegが学習データセットの数に応じてスケールし、直接転移を通じてオープンボキャブラリーセグメンテーションを可能にすることが示される。さらに、我々はObjects365インスタンスセグメンテーション用の1,000枚の画像セットにアノテーションを施し、公開ベンチマークとしてリリースする予定である。
English
Observing the close relationship among panoptic, semantic and instance segmentation tasks, we propose to train a universal multi-dataset multi-task segmentation model: DaTaSeg.We use a shared representation (mask proposals with class predictions) for all tasks. To tackle task discrepancy, we adopt different merge operations and post-processing for different tasks. We also leverage weak-supervision, allowing our segmentation model to benefit from cheaper bounding box annotations. To share knowledge across datasets, we use text embeddings from the same semantic embedding space as classifiers and share all network parameters among datasets. We train DaTaSeg on ADE semantic, COCO panoptic, and Objects365 detection datasets. DaTaSeg improves performance on all datasets, especially small-scale datasets, achieving 54.0 mIoU on ADE semantic and 53.5 PQ on COCO panoptic. DaTaSeg also enables weakly-supervised knowledge transfer on ADE panoptic and Objects365 instance segmentation. Experiments show DaTaSeg scales with the number of training datasets and enables open-vocabulary segmentation through direct transfer. In addition, we annotate an Objects365 instance segmentation set of 1,000 images and will release it as a public benchmark.
PDF10December 15, 2024