UniRef++:空間的および時間的空間における全ての参照オブジェクトをセグメント化する
UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces
December 25, 2023
著者: Jiannan Wu, Yi Jiang, Bin Yan, Huchuan Lu, Zehuan Yuan, Ping Luo
cs.AI
要旨
参照ベースの物体セグメンテーションタスク、すなわち参照画像セグメンテーション(RIS)、Few-Shot画像セグメンテーション(FSS)、参照動画物体セグメンテーション(RVOS)、および動画物体セグメンテーション(VOS)は、言語または注釈付きマスクを参照として利用して特定の物体をセグメント化することを目的としています。それぞれの分野で大きな進展があったにもかかわらず、現在の手法はタスクごとに特化して設計され、異なる方向に発展しており、これらのタスクにおけるマルチタスク能力の活性化を妨げています。本研究では、この断片化された状況を終わらせ、UniRef++を提案し、単一のアーキテクチャで4つの参照ベースの物体セグメンテーションタスクを統合します。我々のアプローチの中核となるのは、提案されたUniFusionモジュールであり、指定された参照に応じて異なるタスクを処理するためのマルチウェイ融合を実行します。そして、インスタンスレベルのセグメンテーションを達成するために、統一されたTransformerアーキテクチャが採用されます。統一された設計により、UniRef++は幅広いベンチマークで共同で訓練でき、実行時に対応する参照を指定することで柔軟に複数のタスクを完了できます。我々は、様々なベンチマークで統一モデルを評価します。広範な実験結果は、提案されたUniRef++がRISとRVOSで最先端の性能を達成し、パラメータ共有ネットワークでFSSとVOSにおいて競争力のある性能を発揮することを示しています。さらに、提案されたUniFusionモジュールが現在の先進的な基盤モデルSAMに容易に組み込まれ、パラメータ効率の良いファインチューニングで満足のいく結果を得られることを示します。コードとモデルはhttps://github.com/FoundationVision/UniRefで利用可能です。
English
The reference-based object segmentation tasks, namely referring image
segmentation (RIS), few-shot image segmentation (FSS), referring video object
segmentation (RVOS), and video object segmentation (VOS), aim to segment a
specific object by utilizing either language or annotated masks as references.
Despite significant progress in each respective field, current methods are
task-specifically designed and developed in different directions, which hinders
the activation of multi-task capabilities for these tasks. In this work, we end
the current fragmented situation and propose UniRef++ to unify the four
reference-based object segmentation tasks with a single architecture. At the
heart of our approach is the proposed UniFusion module which performs
multiway-fusion for handling different tasks with respect to their specified
references. And a unified Transformer architecture is then adopted for
achieving instance-level segmentation. With the unified designs, UniRef++ can
be jointly trained on a broad range of benchmarks and can flexibly complete
multiple tasks at run-time by specifying the corresponding references. We
evaluate our unified models on various benchmarks. Extensive experimental
results indicate that our proposed UniRef++ achieves state-of-the-art
performance on RIS and RVOS, and performs competitively on FSS and VOS with a
parameter-shared network. Moreover, we showcase that the proposed UniFusion
module could be easily incorporated into the current advanced foundation model
SAM and obtain satisfactory results with parameter-efficient finetuning. Codes
and models are available at https://github.com/FoundationVision/UniRef.