Tracciamento di Oggetti con Segmentazione Video Disaccoppiata
Tracking Anything with Decoupled Video Segmentation
September 7, 2023
Autori: Ho Kei Cheng, Seoung Wug Oh, Brian Price, Alexander Schwing, Joon-Young Lee
cs.AI
Abstract
I dati di addestramento per la segmentazione video sono costosi da annotare. Ciò ostacola l'estensione degli algoritmi end-to-end a nuove attività di segmentazione video, specialmente in contesti con un ampio vocabolario. Per "tracciare qualsiasi cosa" senza addestrare su dati video per ogni singola attività, sviluppiamo un approccio di segmentazione video disaccoppiato (DEVA), composto da una segmentazione a livello di immagine specifica per il compito e una propagazione temporale bidirezionale agnostica rispetto alla classe o al compito. Grazie a questa progettazione, abbiamo bisogno solo di un modello a livello di immagine per il compito target (che è più economico da addestrare) e di un modello universale di propagazione temporale che viene addestrato una volta e si generalizza su diversi compiti. Per combinare efficacemente questi due moduli, utilizziamo la propagazione bidirezionale per la fusione (semi-)online delle ipotesi di segmentazione provenienti da frame diversi, al fine di generare una segmentazione coerente. Dimostriamo che questa formulazione disaccoppiata si confronta favorevolmente con gli approcci end-to-end in diverse attività con scarsi dati, tra cui la segmentazione panottica video con ampio vocabolario, la segmentazione video in mondo aperto, la segmentazione video riferita e la segmentazione video non supervisionata degli oggetti. Il codice è disponibile all'indirizzo: https://hkchengrex.github.io/Tracking-Anything-with-DEVA
English
Training data for video segmentation are expensive to annotate. This impedes
extensions of end-to-end algorithms to new video segmentation tasks, especially
in large-vocabulary settings. To 'track anything' without training on video
data for every individual task, we develop a decoupled video segmentation
approach (DEVA), composed of task-specific image-level segmentation and
class/task-agnostic bi-directional temporal propagation. Due to this design, we
only need an image-level model for the target task (which is cheaper to train)
and a universal temporal propagation model which is trained once and
generalizes across tasks. To effectively combine these two modules, we use
bi-directional propagation for (semi-)online fusion of segmentation hypotheses
from different frames to generate a coherent segmentation. We show that this
decoupled formulation compares favorably to end-to-end approaches in several
data-scarce tasks including large-vocabulary video panoptic segmentation,
open-world video segmentation, referring video segmentation, and unsupervised
video object segmentation. Code is available at:
https://hkchengrex.github.io/Tracking-Anything-with-DEVA