DaTaSeg: Domando un modelo universal de segmentación multi-dataset y multi-tarea

Resumen

Observando la estrecha relación entre las tareas de segmentación panóptica, semántica y de instancias, proponemos entrenar un modelo universal de segmentación multi-dataset y multi-tarea: DaTaSeg. Utilizamos una representación compartida (propuestas de máscaras con predicciones de clase) para todas las tareas. Para abordar la discrepancia entre tareas, adoptamos diferentes operaciones de fusión y post-procesamiento para cada tarea. También aprovechamos la supervisión débil, permitiendo que nuestro modelo de segmentación se beneficie de anotaciones más económicas en forma de cajas delimitadoras. Para compartir conocimiento entre datasets, utilizamos embeddings de texto del mismo espacio semántico de embeddings como clasificadores y compartimos todos los parámetros de la red entre los datasets. Entrenamos DaTaSeg en los datasets ADE semántico, COCO panóptico y Objects365 de detección. DaTaSeg mejora el rendimiento en todos los datasets, especialmente en los de menor escala, logrando 54.0 mIoU en ADE semántico y 53.5 PQ en COCO panóptico. DaTaSeg también permite la transferencia de conocimiento con supervisión débil en la segmentación panóptica de ADE y la segmentación de instancias de Objects365. Los experimentos muestran que DaTaSeg escala con el número de datasets de entrenamiento y permite la segmentación de vocabulario abierto mediante transferencia directa. Además, anotamos un conjunto de segmentación de instancias de Objects365 con 1,000 imágenes y lo publicaremos como un benchmark público.

English

Observing the close relationship among panoptic, semantic and instance segmentation tasks, we propose to train a universal multi-dataset multi-task segmentation model: DaTaSeg.We use a shared representation (mask proposals with class predictions) for all tasks. To tackle task discrepancy, we adopt different merge operations and post-processing for different tasks. We also leverage weak-supervision, allowing our segmentation model to benefit from cheaper bounding box annotations. To share knowledge across datasets, we use text embeddings from the same semantic embedding space as classifiers and share all network parameters among datasets. We train DaTaSeg on ADE semantic, COCO panoptic, and Objects365 detection datasets. DaTaSeg improves performance on all datasets, especially small-scale datasets, achieving 54.0 mIoU on ADE semantic and 53.5 PQ on COCO panoptic. DaTaSeg also enables weakly-supervised knowledge transfer on ADE panoptic and Objects365 instance segmentation. Experiments show DaTaSeg scales with the number of training datasets and enables open-vocabulary segmentation through direct transfer. In addition, we annotate an Objects365 instance segmentation set of 1,000 images and will release it as a public benchmark.

DaTaSeg: Domando un modelo universal de segmentación multi-dataset y multi-tarea

DaTaSeg: Taming a Universal Multi-Dataset Multi-Task Segmentation Model

Resumen

Support