ChatPaper.aiChatPaper

Suivi de tout objet par segmentation vidéo découplée

Tracking Anything with Decoupled Video Segmentation

September 7, 2023
Auteurs: Ho Kei Cheng, Seoung Wug Oh, Brian Price, Alexander Schwing, Joon-Young Lee
cs.AI

Résumé

Les données d'entraînement pour la segmentation vidéo sont coûteuses à annoter. Cela entrave l'extension des algorithmes end-to-end à de nouvelles tâches de segmentation vidéo, en particulier dans des contextes à vocabulaire étendu. Pour 'suivre n'importe quoi' sans entraînement sur des données vidéo pour chaque tâche individuelle, nous développons une approche de segmentation vidéo découplée (DEVA), composée d'une segmentation au niveau de l'image spécifique à la tâche et d'une propagation temporelle bidirectionnelle indépendante de la classe ou de la tâche. Grâce à cette conception, nous avons uniquement besoin d'un modèle au niveau de l'image pour la tâche cible (moins coûteux à entraîner) et d'un modèle de propagation temporelle universel qui est entraîné une fois et généralisable à travers les tâches. Pour combiner efficacement ces deux modules, nous utilisons une propagation bidirectionnelle pour la fusion (semi-)en ligne des hypothèses de segmentation provenant de différentes images afin de générer une segmentation cohérente. Nous montrons que cette formulation découplée se compare favorablement aux approches end-to-end dans plusieurs tâches où les données sont rares, y compris la segmentation panoptique vidéo à vocabulaire étendu, la segmentation vidéo en monde ouvert, la segmentation vidéo par référence et la segmentation vidéo non supervisée d'objets. Le code est disponible à l'adresse suivante : https://hkchengrex.github.io/Tracking-Anything-with-DEVA
English
Training data for video segmentation are expensive to annotate. This impedes extensions of end-to-end algorithms to new video segmentation tasks, especially in large-vocabulary settings. To 'track anything' without training on video data for every individual task, we develop a decoupled video segmentation approach (DEVA), composed of task-specific image-level segmentation and class/task-agnostic bi-directional temporal propagation. Due to this design, we only need an image-level model for the target task (which is cheaper to train) and a universal temporal propagation model which is trained once and generalizes across tasks. To effectively combine these two modules, we use bi-directional propagation for (semi-)online fusion of segmentation hypotheses from different frames to generate a coherent segmentation. We show that this decoupled formulation compares favorably to end-to-end approaches in several data-scarce tasks including large-vocabulary video panoptic segmentation, open-world video segmentation, referring video segmentation, and unsupervised video object segmentation. Code is available at: https://hkchengrex.github.io/Tracking-Anything-with-DEVA
PDF282December 15, 2024