ChatPaper.aiChatPaper

UniRef++: Segmentiere jedes Referenzobjekt in räumlichen und zeitlichen Räumen

UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces

December 25, 2023
Autoren: Jiannan Wu, Yi Jiang, Bin Yan, Huchuan Lu, Zehuan Yuan, Ping Luo
cs.AI

Zusammenfassung

Die referenzbasierten Objektsegmentierungsaufgaben, nämlich Referring Image Segmentation (RIS), Few-Shot Image Segmentation (FSS), Referring Video Object Segmentation (RVOS) und Video Object Segmentation (VOS), zielen darauf ab, ein spezifisches Objekt zu segmentieren, indem entweder Sprache oder annotierte Masken als Referenzen verwendet werden. Trotz erheblicher Fortschritte in den jeweiligen Bereichen sind aktuelle Methoden aufgaben spezifisch entworfen und in unterschiedliche Richtungen entwickelt, was die Aktivierung von Multitasking-Fähigkeiten für diese Aufgaben behindert. In dieser Arbeit beenden wir die derzeitige fragmentierte Situation und schlagen UniRef++ vor, um die vier referenzbasierten Objektsegmentierungsaufgaben mit einer einzigen Architektur zu vereinheitlichen. Kern unseres Ansatzes ist das vorgeschlagene UniFusion-Modul, das eine Mehrweg-Fusion zur Handhabung verschiedener Aufgaben in Bezug auf ihre spezifizierten Referenzen durchführt. Eine einheitliche Transformer-Architektur wird dann für die Instanzebenen-Segmentierung verwendet. Mit den vereinheitlichten Designs kann UniRef++ gemeinsam auf einer breiten Palette von Benchmarks trainiert werden und kann zur Laufzeit flexibel mehrere Aufgaben erledigen, indem die entsprechenden Referenzen angegeben werden. Wir bewerten unsere vereinheitlichten Modelle auf verschiedenen Benchmarks. Umfangreiche experimentelle Ergebnisse zeigen, dass unser vorgeschlagenes UniRef++ Spitzenleistungen bei RIS und RVOS erzielt und bei FSS und VOS mit einem parametergeteilten Netzwerk wettbewerbsfähig abschneidet. Darüber hinaus zeigen wir, dass das vorgeschlagene UniFusion-Modul leicht in das aktuelle fortschrittliche Grundlagenmodell SAM integriert werden kann und mit parameter-effizientem Feintuning zufriedenstellende Ergebnisse erzielt. Codes und Modelle sind verfügbar unter https://github.com/FoundationVision/UniRef.
English
The reference-based object segmentation tasks, namely referring image segmentation (RIS), few-shot image segmentation (FSS), referring video object segmentation (RVOS), and video object segmentation (VOS), aim to segment a specific object by utilizing either language or annotated masks as references. Despite significant progress in each respective field, current methods are task-specifically designed and developed in different directions, which hinders the activation of multi-task capabilities for these tasks. In this work, we end the current fragmented situation and propose UniRef++ to unify the four reference-based object segmentation tasks with a single architecture. At the heart of our approach is the proposed UniFusion module which performs multiway-fusion for handling different tasks with respect to their specified references. And a unified Transformer architecture is then adopted for achieving instance-level segmentation. With the unified designs, UniRef++ can be jointly trained on a broad range of benchmarks and can flexibly complete multiple tasks at run-time by specifying the corresponding references. We evaluate our unified models on various benchmarks. Extensive experimental results indicate that our proposed UniRef++ achieves state-of-the-art performance on RIS and RVOS, and performs competitively on FSS and VOS with a parameter-shared network. Moreover, we showcase that the proposed UniFusion module could be easily incorporated into the current advanced foundation model SAM and obtain satisfactory results with parameter-efficient finetuning. Codes and models are available at https://github.com/FoundationVision/UniRef.
PDF211December 15, 2024