UniRef++: Segmentar Cada Objeto de Referência em Espaços Espaciais e Temporais
UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces
December 25, 2023
Autores: Jiannan Wu, Yi Jiang, Bin Yan, Huchuan Lu, Zehuan Yuan, Ping Luo
cs.AI
Resumo
As tarefas de segmentação de objetos baseadas em referência, nomeadamente segmentação de imagens por referência (RIS), segmentação de imagens com poucos exemplos (FSS), segmentação de objetos em vídeo por referência (RVOS) e segmentação de objetos em vídeo (VOS), visam segmentar um objeto específico utilizando linguagem ou máscaras anotadas como referências. Apesar dos avanços significativos em cada campo respectivo, os métodos atuais são projetados e desenvolvidos de forma específica para cada tarefa, o que dificulta a ativação de capacidades multitarefa para essas atividades. Neste trabalho, encerramos a situação fragmentada atual e propomos o UniRef++ para unificar as quatro tarefas de segmentação de objetos baseadas em referência com uma única arquitetura. No cerne de nossa abordagem está o módulo UniFusion proposto, que realiza fusão multidirecional para lidar com diferentes tarefas em relação às suas referências especificadas. Uma arquitetura Transformer unificada é então adotada para alcançar a segmentação em nível de instância. Com os designs unificados, o UniRef++ pode ser treinado conjuntamente em uma ampla gama de benchmarks e pode completar flexivelmente múltiplas tarefas em tempo de execução, especificando as referências correspondentes. Avaliamos nossos modelos unificados em vários benchmarks. Resultados experimentais extensivos indicam que o UniRef++ proposto alcança desempenho de ponta em RIS e RVOS, e apresenta resultados competitivos em FSS e VOS com uma rede de parâmetros compartilhados. Além disso, demonstramos que o módulo UniFusion proposto pode ser facilmente incorporado ao modelo de base avançado atual SAM e obter resultados satisfatórios com ajuste fino eficiente em parâmetros. Códigos e modelos estão disponíveis em https://github.com/FoundationVision/UniRef.
English
The reference-based object segmentation tasks, namely referring image
segmentation (RIS), few-shot image segmentation (FSS), referring video object
segmentation (RVOS), and video object segmentation (VOS), aim to segment a
specific object by utilizing either language or annotated masks as references.
Despite significant progress in each respective field, current methods are
task-specifically designed and developed in different directions, which hinders
the activation of multi-task capabilities for these tasks. In this work, we end
the current fragmented situation and propose UniRef++ to unify the four
reference-based object segmentation tasks with a single architecture. At the
heart of our approach is the proposed UniFusion module which performs
multiway-fusion for handling different tasks with respect to their specified
references. And a unified Transformer architecture is then adopted for
achieving instance-level segmentation. With the unified designs, UniRef++ can
be jointly trained on a broad range of benchmarks and can flexibly complete
multiple tasks at run-time by specifying the corresponding references. We
evaluate our unified models on various benchmarks. Extensive experimental
results indicate that our proposed UniRef++ achieves state-of-the-art
performance on RIS and RVOS, and performs competitively on FSS and VOS with a
parameter-shared network. Moreover, we showcase that the proposed UniFusion
module could be easily incorporated into the current advanced foundation model
SAM and obtain satisfactory results with parameter-efficient finetuning. Codes
and models are available at https://github.com/FoundationVision/UniRef.