ChatPaper.aiChatPaper

UniRef++: 空間的・時間的空間におけるすべての参照オブジェクトをセグメント化する

UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces

December 25, 2023
著者: Jiannan Wu, Yi Jiang, Bin Yan, Huchuan Lu, Zehuan Yuan, Ping Luo
cs.AI

要旨

参照ベースの物体セグメンテーションタスク、すなわち参照画像セグメンテーション(RIS)、数ショット画像セグメンテーション(FSS)、参照動画オブジェクトセグメンテーション(RVOS)、および動画オブジェクトセグメンテーション(VOS)は、言語または注釈付きマスクを参照として利用して特定の物体をセグメント化することを目的としている。各分野で著しい進展が見られるものの、現在の手法はタスク特化的に設計され、異なる方向性で発展しているため、これらのタスクにおけるマルチタスク能力の活性化が妨げられている。本研究では、現在の分断された状況を終わらせ、単一のアーキテクチャで4つの参照ベース物体セグメンテーションタスクを統一するUniRef++を提案する。我々のアプローチの中核は、タスクごとに指定された参照を扱うための多方向融合を実行するUniFusionモジュールである。さらに、インスタンスレベルのセグメンテーションを達成するために統一Transformerアーキテクチャを採用する。この統一設計により、UniRef++は広範なベンチマークで共同訓練が可能となり、実行時に対応する参照を指定することで柔軟に複数のタスクを遂行できる。我々は統一モデルを様々なベンチマークで評価し、提案するUniRef++がRISとRVOSでState-of-the-Art性能を達成し、パラメータ共有ネットワークにおいてFSSとVOSで競争力のある性能を発揮することを示す。さらに、提案するUniFusionモジュールが現在の先進的な基盤モデルSAMに容易に組み込め、パラメータ効率的なファインチューニングで満足のいく結果が得られることを実証する。コードとモデルはhttps://github.com/FoundationVision/UniRefで公開されている。
English
The reference-based object segmentation tasks, namely referring image segmentation (RIS), few-shot image segmentation (FSS), referring video object segmentation (RVOS), and video object segmentation (VOS), aim to segment a specific object by utilizing either language or annotated masks as references. Despite significant progress in each respective field, current methods are task-specifically designed and developed in different directions, which hinders the activation of multi-task capabilities for these tasks. In this work, we end the current fragmented situation and propose UniRef++ to unify the four reference-based object segmentation tasks with a single architecture. At the heart of our approach is the proposed UniFusion module which performs multiway-fusion for handling different tasks with respect to their specified references. And a unified Transformer architecture is then adopted for achieving instance-level segmentation. With the unified designs, UniRef++ can be jointly trained on a broad range of benchmarks and can flexibly complete multiple tasks at run-time by specifying the corresponding references. We evaluate our unified models on various benchmarks. Extensive experimental results indicate that our proposed UniRef++ achieves state-of-the-art performance on RIS and RVOS, and performs competitively on FSS and VOS with a parameter-shared network. Moreover, we showcase that the proposed UniFusion module could be easily incorporated into the current advanced foundation model SAM and obtain satisfactory results with parameter-efficient finetuning. Codes and models are available at https://github.com/FoundationVision/UniRef.
PDF201December 15, 2024