Tracciamento attraverso contenitori e ostruzioni in ambienti reali

Abstract

Il tracciamento di oggetti con persistenza in ambienti affollati e dinamici rimane una sfida complessa per i sistemi di visione artificiale. In questo articolo, presentiamo TCOW, un nuovo benchmark e modello per il tracciamento visivo in presenza di forte occlusione e contenimento. Definiamo un compito in cui l'obiettivo è, data una sequenza video, segmentare sia l'estensione proiettata dell'oggetto target, sia il contenitore circostante o l'occludente, quando presente. Per studiare questo compito, creiamo un mix di dataset sintetici e reali annotati per supportare sia l'apprendimento supervisionato sia la valutazione strutturata delle prestazioni del modello in varie forme di variazione del compito, come il contenimento in movimento o annidato. Valutiamo due recenti modelli video basati su transformer e scopriamo che, sebbene possano essere sorprendentemente capaci di tracciare i target in determinate configurazioni di variazione del compito, rimane un divario di prestazioni considerevole prima di poter affermare che un modello di tracciamento abbia acquisito una vera nozione di permanenza dell'oggetto.

English

Tracking objects with persistence in cluttered and dynamic environments remains a difficult challenge for computer vision systems. In this paper, we introduce TCOW, a new benchmark and model for visual tracking through heavy occlusion and containment. We set up a task where the goal is to, given a video sequence, segment both the projected extent of the target object, as well as the surrounding container or occluder whenever one exists. To study this task, we create a mixture of synthetic and annotated real datasets to support both supervised learning and structured evaluation of model performance under various forms of task variation, such as moving or nested containment. We evaluate two recent transformer-based video models and find that while they can be surprisingly capable of tracking targets under certain settings of task variation, there remains a considerable performance gap before we can claim a tracking model to have acquired a true notion of object permanence.

Tracciamento attraverso contenitori e ostruzioni in ambienti reali

Tracking through Containers and Occluders in the Wild

Abstract

Support