Suivi de tout objet par segmentation vidéo découplée
Tracking Anything with Decoupled Video Segmentation
September 7, 2023
Auteurs: Ho Kei Cheng, Seoung Wug Oh, Brian Price, Alexander Schwing, Joon-Young Lee
cs.AI
Résumé
Les données d'entraînement pour la segmentation vidéo sont coûteuses à annoter. Cela entrave l'extension des algorithmes end-to-end à de nouvelles tâches de segmentation vidéo, en particulier dans des contextes à vocabulaire étendu. Pour 'suivre n'importe quoi' sans entraînement sur des données vidéo pour chaque tâche individuelle, nous développons une approche de segmentation vidéo découplée (DEVA), composée d'une segmentation au niveau de l'image spécifique à la tâche et d'une propagation temporelle bidirectionnelle indépendante de la classe ou de la tâche. Grâce à cette conception, nous avons uniquement besoin d'un modèle au niveau de l'image pour la tâche cible (moins coûteux à entraîner) et d'un modèle de propagation temporelle universel qui est entraîné une fois et généralisable à travers les tâches. Pour combiner efficacement ces deux modules, nous utilisons une propagation bidirectionnelle pour la fusion (semi-)en ligne des hypothèses de segmentation provenant de différentes images afin de générer une segmentation cohérente. Nous montrons que cette formulation découplée se compare favorablement aux approches end-to-end dans plusieurs tâches où les données sont rares, y compris la segmentation panoptique vidéo à vocabulaire étendu, la segmentation vidéo en monde ouvert, la segmentation vidéo par référence et la segmentation vidéo non supervisée d'objets. Le code est disponible à l'adresse suivante : https://hkchengrex.github.io/Tracking-Anything-with-DEVA
English
Training data for video segmentation are expensive to annotate. This impedes
extensions of end-to-end algorithms to new video segmentation tasks, especially
in large-vocabulary settings. To 'track anything' without training on video
data for every individual task, we develop a decoupled video segmentation
approach (DEVA), composed of task-specific image-level segmentation and
class/task-agnostic bi-directional temporal propagation. Due to this design, we
only need an image-level model for the target task (which is cheaper to train)
and a universal temporal propagation model which is trained once and
generalizes across tasks. To effectively combine these two modules, we use
bi-directional propagation for (semi-)online fusion of segmentation hypotheses
from different frames to generate a coherent segmentation. We show that this
decoupled formulation compares favorably to end-to-end approaches in several
data-scarce tasks including large-vocabulary video panoptic segmentation,
open-world video segmentation, referring video segmentation, and unsupervised
video object segmentation. Code is available at:
https://hkchengrex.github.io/Tracking-Anything-with-DEVA