DaTaSeg: Domando um Modelo Universal de Segmentação Multi-Dataset e Multi-Tarefa

Resumo

Observando a estreita relação entre as tarefas de segmentação panóptica, semântica e de instâncias, propomos treinar um modelo universal de segmentação multi-tarefa e multi-dataset: o DaTaSeg. Utilizamos uma representação compartilhada (propostas de máscaras com previsões de classe) para todas as tarefas. Para lidar com a discrepância entre as tarefas, adotamos diferentes operações de fusão e pós-processamento para cada tarefa. Também aproveitamos a supervisão fraca, permitindo que nosso modelo de segmentação se beneficie de anotações mais baratas de caixas delimitadoras. Para compartilhar conhecimento entre datasets, utilizamos embeddings de texto do mesmo espaço semântico de embeddings como classificadores e compartilhamos todos os parâmetros da rede entre os datasets. Treinamos o DaTaSeg nos datasets ADE semântico, COCO panóptico e Objects365 de detecção. O DaTaSeg melhora o desempenho em todos os datasets, especialmente em datasets de pequena escala, alcançando 54.0 mIoU no ADE semântico e 53.5 PQ no COCO panóptico. O DaTaSeg também permite a transferência de conhecimento com supervisão fraca na segmentação panóptica do ADE e na segmentação de instâncias do Objects365. Experimentos mostram que o DaTaSeg escala com o número de datasets de treinamento e permite a segmentação de vocabulário aberto por meio de transferência direta. Além disso, anotamos um conjunto de segmentação de instâncias do Objects365 com 1.000 imagens e o disponibilizaremos como um benchmark público.

English

Observing the close relationship among panoptic, semantic and instance segmentation tasks, we propose to train a universal multi-dataset multi-task segmentation model: DaTaSeg.We use a shared representation (mask proposals with class predictions) for all tasks. To tackle task discrepancy, we adopt different merge operations and post-processing for different tasks. We also leverage weak-supervision, allowing our segmentation model to benefit from cheaper bounding box annotations. To share knowledge across datasets, we use text embeddings from the same semantic embedding space as classifiers and share all network parameters among datasets. We train DaTaSeg on ADE semantic, COCO panoptic, and Objects365 detection datasets. DaTaSeg improves performance on all datasets, especially small-scale datasets, achieving 54.0 mIoU on ADE semantic and 53.5 PQ on COCO panoptic. DaTaSeg also enables weakly-supervised knowledge transfer on ADE panoptic and Objects365 instance segmentation. Experiments show DaTaSeg scales with the number of training datasets and enables open-vocabulary segmentation through direct transfer. In addition, we annotate an Objects365 instance segmentation set of 1,000 images and will release it as a public benchmark.

DaTaSeg: Domando um Modelo Universal de Segmentação Multi-Dataset e Multi-Tarefa

DaTaSeg: Taming a Universal Multi-Dataset Multi-Task Segmentation Model

Resumo

Support