DaTaSeg : Dompter un modèle universel de segmentation multi-données et multi-tâches
DaTaSeg: Taming a Universal Multi-Dataset Multi-Task Segmentation Model
June 2, 2023
Auteurs: Xiuye Gu, Yin Cui, Jonathan Huang, Abdullah Rashwan, Xuan Yang, Xingyi Zhou, Golnaz Ghiasi, Weicheng Kuo, Huizhong Chen, Liang-Chieh Chen, David A Ross
cs.AI
Résumé
Observant la relation étroite entre les tâches de segmentation panoptique, sémantique et par instance, nous proposons d'entraîner un modèle universel de segmentation multi-tâches et multi-datasets : DaTaSeg. Nous utilisons une représentation partagée (propositions de masques avec prédictions de classes) pour toutes les tâches. Pour résoudre les divergences entre tâches, nous adoptons différentes opérations de fusion et post-traitements spécifiques à chaque tâche. Nous exploitons également la supervision faible, permettant à notre modèle de segmentation de bénéficier d'annotations de boîtes englobantes moins coûteuses. Pour partager les connaissances entre datasets, nous utilisons des embeddings textuels issus du même espace sémantique comme classifieurs et partageons tous les paramètres du réseau entre les datasets. Nous entraînons DaTaSeg sur les datasets ADE sémantique, COCO panoptique et Objects365 de détection. DaTaSeg améliore les performances sur tous les datasets, en particulier les datasets de petite échelle, atteignant 54.0 mIoU sur ADE sémantique et 53.5 PQ sur COCO panoptique. DaTaSeg permet également un transfert de connaissances faiblement supervisé sur les segmentations panoptique d'ADE et par instance d'Objects365. Les expériences montrent que DaTaSeg s'adapte au nombre de datasets d'entraînement et permet une segmentation à vocabulaire ouvert par transfert direct. De plus, nous annotons un ensemble de segmentation par instance d'Objects365 composé de 1 000 images et le publierons comme benchmark public.
English
Observing the close relationship among panoptic, semantic and instance
segmentation tasks, we propose to train a universal multi-dataset multi-task
segmentation model: DaTaSeg.We use a shared representation (mask proposals with
class predictions) for all tasks. To tackle task discrepancy, we adopt
different merge operations and post-processing for different tasks. We also
leverage weak-supervision, allowing our segmentation model to benefit from
cheaper bounding box annotations. To share knowledge across datasets, we use
text embeddings from the same semantic embedding space as classifiers and share
all network parameters among datasets. We train DaTaSeg on ADE semantic, COCO
panoptic, and Objects365 detection datasets. DaTaSeg improves performance on
all datasets, especially small-scale datasets, achieving 54.0 mIoU on ADE
semantic and 53.5 PQ on COCO panoptic. DaTaSeg also enables weakly-supervised
knowledge transfer on ADE panoptic and Objects365 instance segmentation.
Experiments show DaTaSeg scales with the number of training datasets and
enables open-vocabulary segmentation through direct transfer. In addition, we
annotate an Objects365 instance segmentation set of 1,000 images and will
release it as a public benchmark.