Suivi à travers les conteneurs et les obstacles dans des environnements réels
Tracking through Containers and Occluders in the Wild
May 4, 2023
Auteurs: Basile Van Hoorick, Pavel Tokmakov, Simon Stent, Jie Li, Carl Vondrick
cs.AI
Résumé
Le suivi d'objets avec persistance dans des environnements encombrés et dynamiques
reste un défi difficile pour les systèmes de vision par ordinateur. Dans cet article, nous
présentons TCOW, un nouveau benchmark et modèle pour le suivi visuel
à travers une occlusion et un confinement importants. Nous définissons une tâche où l'objectif est,
étant donné une séquence vidéo, de segmenter à la fois l'étendue projetée de l'objet cible,
ainsi que le conteneur ou l'occulteur environnant lorsqu'il existe. Pour étudier
cette tâche, nous créons un mélange de données synthétiques et réelles annotées pour
soutenir à la fois l'apprentissage supervisé et l'évaluation structurée des performances du modèle
sous diverses formes de variations de tâche, telles que le confinement mobile ou imbriqué. Nous
évaluons deux modèles vidéo récents basés sur des transformers et constatons que, bien qu'ils puissent
être étonnamment capables de suivre des cibles dans certains contextes de variation de tâche,
il subsiste un écart de performance considérable avant de pouvoir affirmer
qu'un modèle de suivi a acquis une véritable notion de permanence de l'objet.
English
Tracking objects with persistence in cluttered and dynamic environments
remains a difficult challenge for computer vision systems. In this paper, we
introduce TCOW, a new benchmark and model for visual tracking
through heavy occlusion and containment. We set up a task where the goal is to,
given a video sequence, segment both the projected extent of the target object,
as well as the surrounding container or occluder whenever one exists. To study
this task, we create a mixture of synthetic and annotated real datasets to
support both supervised learning and structured evaluation of model performance
under various forms of task variation, such as moving or nested containment. We
evaluate two recent transformer-based video models and find that while they can
be surprisingly capable of tracking targets under certain settings of task
variation, there remains a considerable performance gap before we can claim a
tracking model to have acquired a true notion of object permanence.