Отслеживание любых объектов с помощью разделенной видеосегментации
Tracking Anything with Decoupled Video Segmentation
September 7, 2023
Авторы: Ho Kei Cheng, Seoung Wug Oh, Brian Price, Alexander Schwing, Joon-Young Lee
cs.AI
Аннотация
Аннотация данных для обучения видеосегментации является дорогостоящей. Это затрудняет применение сквозных алгоритмов к новым задачам видеосегментации, особенно в условиях работы с большим словарём. Чтобы "отслеживать что угодно" без необходимости обучения на видеоданных для каждой отдельной задачи, мы разработали разделённый подход к видеосегментации (DEVA), состоящий из специфичной для задачи сегментации на уровне изображений и универсального двунаправленного временного распространения, не зависящего от класса или задачи. Благодаря такому подходу нам требуется только модель для сегментации на уровне изображений для целевой задачи (что дешевле в обучении) и универсальная модель временного распространения, которая обучается один раз и обобщается для различных задач. Для эффективного объединения этих двух модулей мы используем двунаправленное распространение для (полу-)онлайн-объединения гипотез сегментации из разных кадров с целью создания согласованной сегментации. Мы показываем, что такая разделённая формулировка превосходит сквозные подходы в нескольких задачах с ограниченным объёмом данных, включая панорамную видеосегментацию с большим словарём, видеосегментацию в открытом мире, сегментацию видео по ссылкам и неконтролируемую сегментацию объектов на видео. Код доступен по адресу: https://hkchengrex.github.io/Tracking-Anything-with-DEVA
English
Training data for video segmentation are expensive to annotate. This impedes
extensions of end-to-end algorithms to new video segmentation tasks, especially
in large-vocabulary settings. To 'track anything' without training on video
data for every individual task, we develop a decoupled video segmentation
approach (DEVA), composed of task-specific image-level segmentation and
class/task-agnostic bi-directional temporal propagation. Due to this design, we
only need an image-level model for the target task (which is cheaper to train)
and a universal temporal propagation model which is trained once and
generalizes across tasks. To effectively combine these two modules, we use
bi-directional propagation for (semi-)online fusion of segmentation hypotheses
from different frames to generate a coherent segmentation. We show that this
decoupled formulation compares favorably to end-to-end approaches in several
data-scarce tasks including large-vocabulary video panoptic segmentation,
open-world video segmentation, referring video segmentation, and unsupervised
video object segmentation. Code is available at:
https://hkchengrex.github.io/Tracking-Anything-with-DEVA