UniRef++: Сегментация каждого эталонного объекта в пространственных и временных областях
UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces
December 25, 2023
Авторы: Jiannan Wu, Yi Jiang, Bin Yan, Huchuan Lu, Zehuan Yuan, Ping Luo
cs.AI
Аннотация
Задачи сегментации объектов на основе ссылок, а именно сегментация изображений по текстовому описанию (RIS), сегментация изображений с малым количеством примеров (FSS), сегментация объектов в видео по текстовому описанию (RVOS) и сегментация объектов в видео (VOS), направлены на выделение конкретного объекта с использованием либо языковых описаний, либо аннотированных масок в качестве ссылок. Несмотря на значительный прогресс в каждой из этих областей, современные методы разрабатываются специфически для каждой задачи и развиваются в разных направлениях, что препятствует активации мультизадачных возможностей для этих задач. В данной работе мы преодолеваем текущую фрагментированную ситуацию и предлагаем UniRef++ — унифицированную архитектуру для объединения четырех задач сегментации объектов на основе ссылок. Основой нашего подхода является предложенный модуль UniFusion, который выполняет многозадачное слияние для обработки различных задач с учетом их специфических ссылок. Затем используется унифицированная архитектура Transformer для достижения сегментации на уровне экземпляров. Благодаря унифицированным решениям, UniRef++ может быть совместно обучен на широком спектре бенчмарков и гибко выполнять несколько задач во время выполнения, указывая соответствующие ссылки. Мы оцениваем наши унифицированные модели на различных бенчмарках. Обширные экспериментальные результаты показывают, что предложенный UniRef++ достигает наилучших результатов на задачах RIS и RVOS, а также демонстрирует конкурентоспособные показатели на задачах FSS и VOS с использованием сети с общими параметрами. Более того, мы показываем, что предложенный модуль UniFusion может быть легко интегрирован в современную базовую модель SAM и позволяет получить удовлетворительные результаты с эффективной дообучением параметров. Коды и модели доступны по адресу https://github.com/FoundationVision/UniRef.
English
The reference-based object segmentation tasks, namely referring image
segmentation (RIS), few-shot image segmentation (FSS), referring video object
segmentation (RVOS), and video object segmentation (VOS), aim to segment a
specific object by utilizing either language or annotated masks as references.
Despite significant progress in each respective field, current methods are
task-specifically designed and developed in different directions, which hinders
the activation of multi-task capabilities for these tasks. In this work, we end
the current fragmented situation and propose UniRef++ to unify the four
reference-based object segmentation tasks with a single architecture. At the
heart of our approach is the proposed UniFusion module which performs
multiway-fusion for handling different tasks with respect to their specified
references. And a unified Transformer architecture is then adopted for
achieving instance-level segmentation. With the unified designs, UniRef++ can
be jointly trained on a broad range of benchmarks and can flexibly complete
multiple tasks at run-time by specifying the corresponding references. We
evaluate our unified models on various benchmarks. Extensive experimental
results indicate that our proposed UniRef++ achieves state-of-the-art
performance on RIS and RVOS, and performs competitively on FSS and VOS with a
parameter-shared network. Moreover, we showcase that the proposed UniFusion
module could be easily incorporated into the current advanced foundation model
SAM and obtain satisfactory results with parameter-efficient finetuning. Codes
and models are available at https://github.com/FoundationVision/UniRef.