Alles Volgen met Ontkoppelde Videosegmentatie
Tracking Anything with Decoupled Video Segmentation
September 7, 2023
Auteurs: Ho Kei Cheng, Seoung Wug Oh, Brian Price, Alexander Schwing, Joon-Young Lee
cs.AI
Samenvatting
Trainingsdata voor videosegmentatie zijn kostbaar om te annoteren. Dit belemmert de uitbreiding van end-to-end algoritmen naar nieuwe videosegmentatietaken, vooral in omgevingen met een grote woordenschat. Om 'alles te kunnen volgen' zonder te trainen op videodata voor elke individuele taak, ontwikkelen we een ontkoppelde aanpak voor videosegmentatie (DEVA), bestaande uit taakspecifieke segmentatie op beeldniveau en klasse/taak-agnostische bidirectionele temporele propagatie. Door dit ontwerp hebben we alleen een model op beeldniveau nodig voor de doeltaak (wat goedkoper is om te trainen) en een universeel temporeel propagatiemodel dat eenmaal wordt getraind en generaliseert over taken. Om deze twee modules effectief te combineren, gebruiken we bidirectionele propagatie voor (semi-)online fusie van segmentatiehypothesen uit verschillende frames om een coherente segmentatie te genereren. We laten zien dat deze ontkoppelde formulering gunstig afsteekt tegen end-to-end benaderingen in verschillende data-schaarse taken, waaronder videopanoptische segmentatie met een grote woordenschat, open-wereld videosegmentatie, verwijzende videosegmentatie en onbewaakte video-objectsegmentatie. Code is beschikbaar op: https://hkchengrex.github.io/Tracking-Anything-with-DEVA
English
Training data for video segmentation are expensive to annotate. This impedes
extensions of end-to-end algorithms to new video segmentation tasks, especially
in large-vocabulary settings. To 'track anything' without training on video
data for every individual task, we develop a decoupled video segmentation
approach (DEVA), composed of task-specific image-level segmentation and
class/task-agnostic bi-directional temporal propagation. Due to this design, we
only need an image-level model for the target task (which is cheaper to train)
and a universal temporal propagation model which is trained once and
generalizes across tasks. To effectively combine these two modules, we use
bi-directional propagation for (semi-)online fusion of segmentation hypotheses
from different frames to generate a coherent segmentation. We show that this
decoupled formulation compares favorably to end-to-end approaches in several
data-scarce tasks including large-vocabulary video panoptic segmentation,
open-world video segmentation, referring video segmentation, and unsupervised
video object segmentation. Code is available at:
https://hkchengrex.github.io/Tracking-Anything-with-DEVA