Tracciamento attraverso contenitori e ostruzioni in ambienti reali
Tracking through Containers and Occluders in the Wild
May 4, 2023
Autori: Basile Van Hoorick, Pavel Tokmakov, Simon Stent, Jie Li, Carl Vondrick
cs.AI
Abstract
Il tracciamento di oggetti con persistenza in ambienti affollati e dinamici rimane una sfida complessa per i sistemi di visione artificiale. In questo articolo, presentiamo TCOW, un nuovo benchmark e modello per il tracciamento visivo in presenza di forte occlusione e contenimento. Definiamo un compito in cui l'obiettivo è, data una sequenza video, segmentare sia l'estensione proiettata dell'oggetto target, sia il contenitore circostante o l'occludente, quando presente. Per studiare questo compito, creiamo un mix di dataset sintetici e reali annotati per supportare sia l'apprendimento supervisionato sia la valutazione strutturata delle prestazioni del modello in varie forme di variazione del compito, come il contenimento in movimento o annidato. Valutiamo due recenti modelli video basati su transformer e scopriamo che, sebbene possano essere sorprendentemente capaci di tracciare i target in determinate configurazioni di variazione del compito, rimane un divario di prestazioni considerevole prima di poter affermare che un modello di tracciamento abbia acquisito una vera nozione di permanenza dell'oggetto.
English
Tracking objects with persistence in cluttered and dynamic environments
remains a difficult challenge for computer vision systems. In this paper, we
introduce TCOW, a new benchmark and model for visual tracking
through heavy occlusion and containment. We set up a task where the goal is to,
given a video sequence, segment both the projected extent of the target object,
as well as the surrounding container or occluder whenever one exists. To study
this task, we create a mixture of synthetic and annotated real datasets to
support both supervised learning and structured evaluation of model performance
under various forms of task variation, such as moving or nested containment. We
evaluate two recent transformer-based video models and find that while they can
be surprisingly capable of tracking targets under certain settings of task
variation, there remains a considerable performance gap before we can claim a
tracking model to have acquired a true notion of object permanence.