UniRef++: Segmentar Cada Objeto de Referencia en Espacios Espaciales y Temporales
UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces
December 25, 2023
Autores: Jiannan Wu, Yi Jiang, Bin Yan, Huchuan Lu, Zehuan Yuan, Ping Luo
cs.AI
Resumen
Las tareas de segmentación de objetos basadas en referencias, específicamente la segmentación de imágenes por referencia (RIS), la segmentación de imágenes con pocos ejemplos (FSS), la segmentación de objetos en video por referencia (RVOS) y la segmentación de objetos en video (VOS), tienen como objetivo segmentar un objeto específico utilizando ya sea lenguaje o máscaras anotadas como referencias. A pesar de los avances significativos en cada campo respectivo, los métodos actuales están diseñados y desarrollados de manera específica para cada tarea, lo que dificulta la activación de capacidades multitarea para estas tareas. En este trabajo, ponemos fin a la situación fragmentada actual y proponemos UniRef++ para unificar las cuatro tareas de segmentación de objetos basadas en referencias con una única arquitectura. En el núcleo de nuestro enfoque se encuentra el módulo UniFusion propuesto, que realiza una fusión multidireccional para manejar diferentes tareas con respecto a sus referencias especificadas. Luego, se adopta una arquitectura unificada de Transformer para lograr la segmentación a nivel de instancia. Con estos diseños unificados, UniRef++ puede entrenarse conjuntamente en una amplia gama de benchmarks y puede completar de manera flexible múltiples tareas en tiempo de ejecución especificando las referencias correspondientes. Evaluamos nuestros modelos unificados en varios benchmarks. Los extensos resultados experimentales indican que nuestro UniRef++ propuesto alcanza un rendimiento de vanguardia en RIS y RVOS, y compite de manera competitiva en FSS y VOS con una red de parámetros compartidos. Además, demostramos que el módulo UniFusion propuesto podría incorporarse fácilmente en el modelo base avanzado actual SAM y obtener resultados satisfactorios con un ajuste eficiente de parámetros. Los códigos y modelos están disponibles en https://github.com/FoundationVision/UniRef.
English
The reference-based object segmentation tasks, namely referring image
segmentation (RIS), few-shot image segmentation (FSS), referring video object
segmentation (RVOS), and video object segmentation (VOS), aim to segment a
specific object by utilizing either language or annotated masks as references.
Despite significant progress in each respective field, current methods are
task-specifically designed and developed in different directions, which hinders
the activation of multi-task capabilities for these tasks. In this work, we end
the current fragmented situation and propose UniRef++ to unify the four
reference-based object segmentation tasks with a single architecture. At the
heart of our approach is the proposed UniFusion module which performs
multiway-fusion for handling different tasks with respect to their specified
references. And a unified Transformer architecture is then adopted for
achieving instance-level segmentation. With the unified designs, UniRef++ can
be jointly trained on a broad range of benchmarks and can flexibly complete
multiple tasks at run-time by specifying the corresponding references. We
evaluate our unified models on various benchmarks. Extensive experimental
results indicate that our proposed UniRef++ achieves state-of-the-art
performance on RIS and RVOS, and performs competitively on FSS and VOS with a
parameter-shared network. Moreover, we showcase that the proposed UniFusion
module could be easily incorporated into the current advanced foundation model
SAM and obtain satisfactory results with parameter-efficient finetuning. Codes
and models are available at https://github.com/FoundationVision/UniRef.