DaTaSeg: Domando un modelo universal de segmentación multi-dataset y multi-tarea
DaTaSeg: Taming a Universal Multi-Dataset Multi-Task Segmentation Model
June 2, 2023
Autores: Xiuye Gu, Yin Cui, Jonathan Huang, Abdullah Rashwan, Xuan Yang, Xingyi Zhou, Golnaz Ghiasi, Weicheng Kuo, Huizhong Chen, Liang-Chieh Chen, David A Ross
cs.AI
Resumen
Observando la estrecha relación entre las tareas de segmentación panóptica, semántica y de instancias, proponemos entrenar un modelo universal de segmentación multi-dataset y multi-tarea: DaTaSeg. Utilizamos una representación compartida (propuestas de máscaras con predicciones de clase) para todas las tareas. Para abordar la discrepancia entre tareas, adoptamos diferentes operaciones de fusión y post-procesamiento para cada tarea. También aprovechamos la supervisión débil, permitiendo que nuestro modelo de segmentación se beneficie de anotaciones más económicas en forma de cajas delimitadoras. Para compartir conocimiento entre datasets, utilizamos embeddings de texto del mismo espacio semántico de embeddings como clasificadores y compartimos todos los parámetros de la red entre los datasets. Entrenamos DaTaSeg en los datasets ADE semántico, COCO panóptico y Objects365 de detección. DaTaSeg mejora el rendimiento en todos los datasets, especialmente en los de menor escala, logrando 54.0 mIoU en ADE semántico y 53.5 PQ en COCO panóptico. DaTaSeg también permite la transferencia de conocimiento con supervisión débil en la segmentación panóptica de ADE y la segmentación de instancias de Objects365. Los experimentos muestran que DaTaSeg escala con el número de datasets de entrenamiento y permite la segmentación de vocabulario abierto mediante transferencia directa. Además, anotamos un conjunto de segmentación de instancias de Objects365 con 1,000 imágenes y lo publicaremos como un benchmark público.
English
Observing the close relationship among panoptic, semantic and instance
segmentation tasks, we propose to train a universal multi-dataset multi-task
segmentation model: DaTaSeg.We use a shared representation (mask proposals with
class predictions) for all tasks. To tackle task discrepancy, we adopt
different merge operations and post-processing for different tasks. We also
leverage weak-supervision, allowing our segmentation model to benefit from
cheaper bounding box annotations. To share knowledge across datasets, we use
text embeddings from the same semantic embedding space as classifiers and share
all network parameters among datasets. We train DaTaSeg on ADE semantic, COCO
panoptic, and Objects365 detection datasets. DaTaSeg improves performance on
all datasets, especially small-scale datasets, achieving 54.0 mIoU on ADE
semantic and 53.5 PQ on COCO panoptic. DaTaSeg also enables weakly-supervised
knowledge transfer on ADE panoptic and Objects365 instance segmentation.
Experiments show DaTaSeg scales with the number of training datasets and
enables open-vocabulary segmentation through direct transfer. In addition, we
annotate an Objects365 instance segmentation set of 1,000 images and will
release it as a public benchmark.