Rastreamento de Qualquer Objeto com Segmentação de Vídeo Desacoplada
Tracking Anything with Decoupled Video Segmentation
September 7, 2023
Autores: Ho Kei Cheng, Seoung Wug Oh, Brian Price, Alexander Schwing, Joon-Young Lee
cs.AI
Resumo
A anotação de dados de treinamento para segmentação de vídeo é dispendiosa. Isso dificulta a extensão de algoritmos de ponta a ponta para novas tarefas de segmentação de vídeo, especialmente em cenários de grande vocabulário. Para "rastrear qualquer coisa" sem treinar em dados de vídeo para cada tarefa individual, desenvolvemos uma abordagem de segmentação de vídeo desacoplada (DEVA), composta por segmentação em nível de imagem específica para a tarefa e propagação temporal bidirecional agnóstica à classe/tarefa. Devido a esse design, precisamos apenas de um modelo em nível de imagem para a tarefa alvo (que é mais barato de treinar) e de um modelo universal de propagação temporal que é treinado uma vez e generaliza entre tarefas. Para combinar efetivamente esses dois módulos, utilizamos propagação bidirecional para a fusão (semi)online de hipóteses de segmentação de diferentes quadros, gerando uma segmentação coerente. Demonstramos que essa formulação desacoplada se compara favoravelmente a abordagens de ponta a ponta em várias tarefas com escassez de dados, incluindo segmentação panóptica de vídeo de grande vocabulário, segmentação de vídeo em mundo aberto, segmentação de vídeo por referência e segmentação de objetos em vídeo não supervisionada. O código está disponível em: https://hkchengrex.github.io/Tracking-Anything-with-DEVA.
English
Training data for video segmentation are expensive to annotate. This impedes
extensions of end-to-end algorithms to new video segmentation tasks, especially
in large-vocabulary settings. To 'track anything' without training on video
data for every individual task, we develop a decoupled video segmentation
approach (DEVA), composed of task-specific image-level segmentation and
class/task-agnostic bi-directional temporal propagation. Due to this design, we
only need an image-level model for the target task (which is cheaper to train)
and a universal temporal propagation model which is trained once and
generalizes across tasks. To effectively combine these two modules, we use
bi-directional propagation for (semi-)online fusion of segmentation hypotheses
from different frames to generate a coherent segmentation. We show that this
decoupled formulation compares favorably to end-to-end approaches in several
data-scarce tasks including large-vocabulary video panoptic segmentation,
open-world video segmentation, referring video segmentation, and unsupervised
video object segmentation. Code is available at:
https://hkchengrex.github.io/Tracking-Anything-with-DEVA