ChatPaper.aiChatPaper

UniRef++ : Segmenter chaque objet de référence dans les espaces spatiaux et temporels

UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces

December 25, 2023
Auteurs: Jiannan Wu, Yi Jiang, Bin Yan, Huchuan Lu, Zehuan Yuan, Ping Luo
cs.AI

Résumé

Les tâches de segmentation d'objets basées sur des références, à savoir la segmentation d'images par référence (RIS), la segmentation d'images en peu de coups (FSS), la segmentation d'objets vidéo par référence (RVOS) et la segmentation d'objets vidéo (VOS), visent à segmenter un objet spécifique en utilisant soit le langage, soit des masques annotés comme références. Malgré des progrès significatifs dans chaque domaine respectif, les méthodes actuelles sont conçues et développées de manière spécifique à chaque tâche, ce qui entrave l'activation des capacités multitâches pour ces tâches. Dans ce travail, nous mettons fin à cette situation fragmentée et proposons UniRef++ pour unifier les quatre tâches de segmentation d'objets basées sur des références avec une architecture unique. Au cœur de notre approche se trouve le module UniFusion proposé, qui effectue une fusion multidirectionnelle pour gérer différentes tâches en fonction de leurs références spécifiées. Une architecture Transformer unifiée est ensuite adoptée pour réaliser une segmentation au niveau de l'instance. Grâce à ces conceptions unifiées, UniRef++ peut être conjointement entraîné sur un large éventail de benchmarks et peut accomplir de manière flexible plusieurs tâches en temps d'exécution en spécifiant les références correspondantes. Nous évaluons nos modèles unifiés sur divers benchmarks. Les résultats expérimentaux approfondis indiquent que notre UniRef++ proposé atteint des performances de pointe sur RIS et RVOS, et se comporte de manière compétitive sur FSS et VOS avec un réseau à paramètres partagés. De plus, nous démontrons que le module UniFusion proposé pourrait être facilement intégré dans le modèle de base avancé actuel SAM et obtenir des résultats satisfaisants avec un réglage fin efficace en paramètres. Les codes et modèles sont disponibles à l'adresse https://github.com/FoundationVision/UniRef.
English
The reference-based object segmentation tasks, namely referring image segmentation (RIS), few-shot image segmentation (FSS), referring video object segmentation (RVOS), and video object segmentation (VOS), aim to segment a specific object by utilizing either language or annotated masks as references. Despite significant progress in each respective field, current methods are task-specifically designed and developed in different directions, which hinders the activation of multi-task capabilities for these tasks. In this work, we end the current fragmented situation and propose UniRef++ to unify the four reference-based object segmentation tasks with a single architecture. At the heart of our approach is the proposed UniFusion module which performs multiway-fusion for handling different tasks with respect to their specified references. And a unified Transformer architecture is then adopted for achieving instance-level segmentation. With the unified designs, UniRef++ can be jointly trained on a broad range of benchmarks and can flexibly complete multiple tasks at run-time by specifying the corresponding references. We evaluate our unified models on various benchmarks. Extensive experimental results indicate that our proposed UniRef++ achieves state-of-the-art performance on RIS and RVOS, and performs competitively on FSS and VOS with a parameter-shared network. Moreover, we showcase that the proposed UniFusion module could be easily incorporated into the current advanced foundation model SAM and obtain satisfactory results with parameter-efficient finetuning. Codes and models are available at https://github.com/FoundationVision/UniRef.
PDF211December 15, 2024