UniRef++: Segmenteer elk referentieobject in ruimtelijke en temporele ruimtes
UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces
December 25, 2023
Auteurs: Jiannan Wu, Yi Jiang, Bin Yan, Huchuan Lu, Zehuan Yuan, Ping Luo
cs.AI
Samenvatting
De referentiegebaseerde objectsegmentatietaken, namelijk referring image segmentation (RIS), few-shot image segmentation (FSS), referring video object segmentation (RVOS) en video object segmentation (VOS), hebben als doel een specifiek object te segmenteren door gebruik te maken van taal of geannoteerde maskers als referenties. Ondanks aanzienlijke vooruitgang in elk van deze afzonderlijke velden, zijn huidige methoden taakspecifiek ontworpen en ontwikkeld in verschillende richtingen, wat de activering van multitaskmogelijkheden voor deze taken belemmert. In dit werk beëindigen we de huidige gefragmenteerde situatie en stellen we UniRef++ voor om de vier referentiegebaseerde objectsegmentatietaken te verenigen met een enkele architectuur. De kern van onze aanpak is de voorgestelde UniFusion-module, die multiway-fusie uitvoert voor het afhandelen van verschillende taken met betrekking tot hun gespecificeerde referenties. Vervolgens wordt een uniforme Transformer-architectuur geadopteerd voor het bereiken van instantieniveau-segmentatie. Met de uniforme ontwerpen kan UniRef++ gezamenlijk worden getraind op een breed scala aan benchmarks en kan het flexibel meerdere taken uitvoeren tijdens runtime door de corresponderende referenties op te geven. We evalueren onze verenigde modellen op verschillende benchmarks. Uitgebreide experimentele resultaten geven aan dat onze voorgestelde UniRef++ state-of-the-art prestaties behaalt op RIS en RVOS, en concurrerend presteert op FSS en VOS met een parameter-gedeeld netwerk. Bovendien laten we zien dat de voorgestelde UniFusion-module eenvoudig kan worden geïntegreerd in het huidige geavanceerde foundationmodel SAM en bevredigende resultaten kan behalen met parameter-efficiënte finetuning. Codes en modellen zijn beschikbaar op https://github.com/FoundationVision/UniRef.
English
The reference-based object segmentation tasks, namely referring image
segmentation (RIS), few-shot image segmentation (FSS), referring video object
segmentation (RVOS), and video object segmentation (VOS), aim to segment a
specific object by utilizing either language or annotated masks as references.
Despite significant progress in each respective field, current methods are
task-specifically designed and developed in different directions, which hinders
the activation of multi-task capabilities for these tasks. In this work, we end
the current fragmented situation and propose UniRef++ to unify the four
reference-based object segmentation tasks with a single architecture. At the
heart of our approach is the proposed UniFusion module which performs
multiway-fusion for handling different tasks with respect to their specified
references. And a unified Transformer architecture is then adopted for
achieving instance-level segmentation. With the unified designs, UniRef++ can
be jointly trained on a broad range of benchmarks and can flexibly complete
multiple tasks at run-time by specifying the corresponding references. We
evaluate our unified models on various benchmarks. Extensive experimental
results indicate that our proposed UniRef++ achieves state-of-the-art
performance on RIS and RVOS, and performs competitively on FSS and VOS with a
parameter-shared network. Moreover, we showcase that the proposed UniFusion
module could be easily incorporated into the current advanced foundation model
SAM and obtain satisfactory results with parameter-efficient finetuning. Codes
and models are available at https://github.com/FoundationVision/UniRef.