ChatPaper.aiChatPaper

Verfolgung von allem mit entkoppelter Videosegmentierung

Tracking Anything with Decoupled Video Segmentation

September 7, 2023
Autoren: Ho Kei Cheng, Seoung Wug Oh, Brian Price, Alexander Schwing, Joon-Young Lee
cs.AI

Zusammenfassung

Trainingsdaten für die Videosegmentierung sind kostspielig zu annotieren. Dies behindert die Erweiterung von End-to-End-Algorithmen auf neue Videosegmentierungsaufgaben, insbesondere in Umgebungen mit großem Vokabular. Um „alles verfolgen“ zu können, ohne für jede einzelne Aufgabe auf Videodaten trainieren zu müssen, entwickeln wir einen entkoppelten Ansatz zur Videosegmentierung (DEVA), der aus aufgabenbezogener Bildsegmentierung und klassen-/aufgabenunabhängiger bidirektionaler zeitlicher Propagation besteht. Aufgrund dieses Designs benötigen wir nur ein bildbasiertes Modell für die Zielaufgabe (das kostengünstiger zu trainieren ist) und ein universelles zeitliches Propagationsmodell, das einmal trainiert wird und sich auf verschiedene Aufgaben verallgemeinern lässt. Um diese beiden Module effektiv zu kombinieren, verwenden wir bidirektionale Propagation zur (halb-)online Fusion von Segmentierungshypothesen aus verschiedenen Frames, um eine kohärente Segmentierung zu erzeugen. Wir zeigen, dass diese entkoppelte Formulierung in mehreren datenarmen Aufgaben, einschließlich großvolumiger videopannotischer Segmentierung, Open-World-Videosegmentierung, referenzieller Videosegmentierung und unüberwachter Videoobjektsegmentierung, günstig im Vergleich zu End-to-End-Ansätzen abschneidet. Der Code ist verfügbar unter: https://hkchengrex.github.io/Tracking-Anything-with-DEVA
English
Training data for video segmentation are expensive to annotate. This impedes extensions of end-to-end algorithms to new video segmentation tasks, especially in large-vocabulary settings. To 'track anything' without training on video data for every individual task, we develop a decoupled video segmentation approach (DEVA), composed of task-specific image-level segmentation and class/task-agnostic bi-directional temporal propagation. Due to this design, we only need an image-level model for the target task (which is cheaper to train) and a universal temporal propagation model which is trained once and generalizes across tasks. To effectively combine these two modules, we use bi-directional propagation for (semi-)online fusion of segmentation hypotheses from different frames to generate a coherent segmentation. We show that this decoupled formulation compares favorably to end-to-end approaches in several data-scarce tasks including large-vocabulary video panoptic segmentation, open-world video segmentation, referring video segmentation, and unsupervised video object segmentation. Code is available at: https://hkchengrex.github.io/Tracking-Anything-with-DEVA
PDF282December 15, 2024