DaTaSeg: Domando um Modelo Universal de Segmentação Multi-Dataset e Multi-Tarefa
DaTaSeg: Taming a Universal Multi-Dataset Multi-Task Segmentation Model
June 2, 2023
Autores: Xiuye Gu, Yin Cui, Jonathan Huang, Abdullah Rashwan, Xuan Yang, Xingyi Zhou, Golnaz Ghiasi, Weicheng Kuo, Huizhong Chen, Liang-Chieh Chen, David A Ross
cs.AI
Resumo
Observando a estreita relação entre as tarefas de segmentação panóptica, semântica e de instâncias, propomos treinar um modelo universal de segmentação multi-tarefa e multi-dataset: o DaTaSeg. Utilizamos uma representação compartilhada (propostas de máscaras com previsões de classe) para todas as tarefas. Para lidar com a discrepância entre as tarefas, adotamos diferentes operações de fusão e pós-processamento para cada tarefa. Também aproveitamos a supervisão fraca, permitindo que nosso modelo de segmentação se beneficie de anotações mais baratas de caixas delimitadoras. Para compartilhar conhecimento entre datasets, utilizamos embeddings de texto do mesmo espaço semântico de embeddings como classificadores e compartilhamos todos os parâmetros da rede entre os datasets. Treinamos o DaTaSeg nos datasets ADE semântico, COCO panóptico e Objects365 de detecção. O DaTaSeg melhora o desempenho em todos os datasets, especialmente em datasets de pequena escala, alcançando 54.0 mIoU no ADE semântico e 53.5 PQ no COCO panóptico. O DaTaSeg também permite a transferência de conhecimento com supervisão fraca na segmentação panóptica do ADE e na segmentação de instâncias do Objects365. Experimentos mostram que o DaTaSeg escala com o número de datasets de treinamento e permite a segmentação de vocabulário aberto por meio de transferência direta. Além disso, anotamos um conjunto de segmentação de instâncias do Objects365 com 1.000 imagens e o disponibilizaremos como um benchmark público.
English
Observing the close relationship among panoptic, semantic and instance
segmentation tasks, we propose to train a universal multi-dataset multi-task
segmentation model: DaTaSeg.We use a shared representation (mask proposals with
class predictions) for all tasks. To tackle task discrepancy, we adopt
different merge operations and post-processing for different tasks. We also
leverage weak-supervision, allowing our segmentation model to benefit from
cheaper bounding box annotations. To share knowledge across datasets, we use
text embeddings from the same semantic embedding space as classifiers and share
all network parameters among datasets. We train DaTaSeg on ADE semantic, COCO
panoptic, and Objects365 detection datasets. DaTaSeg improves performance on
all datasets, especially small-scale datasets, achieving 54.0 mIoU on ADE
semantic and 53.5 PQ on COCO panoptic. DaTaSeg also enables weakly-supervised
knowledge transfer on ADE panoptic and Objects365 instance segmentation.
Experiments show DaTaSeg scales with the number of training datasets and
enables open-vocabulary segmentation through direct transfer. In addition, we
annotate an Objects365 instance segmentation set of 1,000 images and will
release it as a public benchmark.