DaTaSeg: 범용 다중 데이터셋 다중 작업 분할 모델의 제어
DaTaSeg: Taming a Universal Multi-Dataset Multi-Task Segmentation Model
June 2, 2023
저자: Xiuye Gu, Yin Cui, Jonathan Huang, Abdullah Rashwan, Xuan Yang, Xingyi Zhou, Golnaz Ghiasi, Weicheng Kuo, Huizhong Chen, Liang-Chieh Chen, David A Ross
cs.AI
초록
팬옵틱, 시맨틱, 인스턴스 세그멘테이션 작업 간의 밀접한 관계를 관찰하여, 우리는 범용적인 다중 데이터셋 다중 작업 세그멘테이션 모델인 DaTaSeg를 학습시키는 것을 제안한다. 우리는 모든 작업에 대해 공유된 표현(클래스 예측과 함께 마스크 제안)을 사용한다. 작업 간의 차이를 해결하기 위해, 우리는 서로 다른 작업에 대해 다른 병합 작업과 후처리를 채택한다. 또한, 우리는 약한 감독을 활용하여 세그멘테이션 모델이 더 저렴한 바운딩 박스 주석으로부터 이익을 얻을 수 있도록 한다. 데이터셋 간의 지식을 공유하기 위해, 우리는 동일한 시맨틱 임베딩 공간에서의 텍스트 임베딩을 분류기로 사용하고 모든 네트워크 파라미터를 데이터셋 간에 공유한다. 우리는 ADE 시맨틱, COCO 팬옵틱, 그리고 Objects365 검출 데이터셋에서 DaTaSeg를 학습시킨다. DaTaSeg는 모든 데이터셋, 특히 소규모 데이터셋에서 성능을 향상시켜, ADE 시맨틱에서 54.0 mIoU, COCO 팬옵틱에서 53.5 PQ를 달성한다. DaTaSeg는 또한 ADE 팬옵틱과 Objects365 인스턴스 세그멘테이션에서 약한 감독 지식 전달을 가능하게 한다. 실험 결과, DaTaSeg는 학습 데이터셋의 수에 따라 확장 가능하며, 직접 전달을 통해 개방형 어휘 세그멘테이션을 가능하게 한다. 추가적으로, 우리는 Objects365 인스턴스 세그멘테이션 데이터셋의 1,000장의 이미지를 주석 처리하고 이를 공개 벤치마크로 출시할 예정이다.
English
Observing the close relationship among panoptic, semantic and instance
segmentation tasks, we propose to train a universal multi-dataset multi-task
segmentation model: DaTaSeg.We use a shared representation (mask proposals with
class predictions) for all tasks. To tackle task discrepancy, we adopt
different merge operations and post-processing for different tasks. We also
leverage weak-supervision, allowing our segmentation model to benefit from
cheaper bounding box annotations. To share knowledge across datasets, we use
text embeddings from the same semantic embedding space as classifiers and share
all network parameters among datasets. We train DaTaSeg on ADE semantic, COCO
panoptic, and Objects365 detection datasets. DaTaSeg improves performance on
all datasets, especially small-scale datasets, achieving 54.0 mIoU on ADE
semantic and 53.5 PQ on COCO panoptic. DaTaSeg also enables weakly-supervised
knowledge transfer on ADE panoptic and Objects365 instance segmentation.
Experiments show DaTaSeg scales with the number of training datasets and
enables open-vocabulary segmentation through direct transfer. In addition, we
annotate an Objects365 instance segmentation set of 1,000 images and will
release it as a public benchmark.