ChatPaper.aiChatPaper

Suivi à travers les conteneurs et les obstacles dans des environnements réels

Tracking through Containers and Occluders in the Wild

May 4, 2023
Auteurs: Basile Van Hoorick, Pavel Tokmakov, Simon Stent, Jie Li, Carl Vondrick
cs.AI

Résumé

Le suivi d'objets avec persistance dans des environnements encombrés et dynamiques reste un défi difficile pour les systèmes de vision par ordinateur. Dans cet article, nous présentons TCOW, un nouveau benchmark et modèle pour le suivi visuel à travers une occlusion et un confinement importants. Nous définissons une tâche où l'objectif est, étant donné une séquence vidéo, de segmenter à la fois l'étendue projetée de l'objet cible, ainsi que le conteneur ou l'occulteur environnant lorsqu'il existe. Pour étudier cette tâche, nous créons un mélange de données synthétiques et réelles annotées pour soutenir à la fois l'apprentissage supervisé et l'évaluation structurée des performances du modèle sous diverses formes de variations de tâche, telles que le confinement mobile ou imbriqué. Nous évaluons deux modèles vidéo récents basés sur des transformers et constatons que, bien qu'ils puissent être étonnamment capables de suivre des cibles dans certains contextes de variation de tâche, il subsiste un écart de performance considérable avant de pouvoir affirmer qu'un modèle de suivi a acquis une véritable notion de permanence de l'objet.
English
Tracking objects with persistence in cluttered and dynamic environments remains a difficult challenge for computer vision systems. In this paper, we introduce TCOW, a new benchmark and model for visual tracking through heavy occlusion and containment. We set up a task where the goal is to, given a video sequence, segment both the projected extent of the target object, as well as the surrounding container or occluder whenever one exists. To study this task, we create a mixture of synthetic and annotated real datasets to support both supervised learning and structured evaluation of model performance under various forms of task variation, such as moving or nested containment. We evaluate two recent transformer-based video models and find that while they can be surprisingly capable of tracking targets under certain settings of task variation, there remains a considerable performance gap before we can claim a tracking model to have acquired a true notion of object permanence.
PDF10December 15, 2024