ChatPaper.aiChatPaper

Volgen door containers en occluders in natuurlijke omgevingen

Tracking through Containers and Occluders in the Wild

May 4, 2023
Auteurs: Basile Van Hoorick, Pavel Tokmakov, Simon Stent, Jie Li, Carl Vondrick
cs.AI

Samenvatting

Het volgen van objecten met persistentie in rommelige en dynamische omgevingen blijft een uitdagend probleem voor computervisiesystemen. In dit artikel introduceren we TCOW, een nieuwe benchmark en model voor visueel volgen onder zware occlusie en insluiting. We definiëren een taak waarbij het doel is om, gegeven een videosequentie, zowel de geprojecteerde omvang van het doelobject als het omringende container- of occlusieobject te segmenteren, wanneer dit aanwezig is. Om deze taak te bestuderen, creëren we een mix van synthetische en geannoteerde real-world datasets om zowel supervised learning als gestructureerde evaluatie van modelprestaties onder verschillende vormen van taakvariatie te ondersteunen, zoals bewegende of geneste insluiting. We evalueren twee recente transformer-gebaseerde videomodellen en concluderen dat, hoewel ze verrassend goed in staat zijn om doelobjecten te volgen onder bepaalde taakvariaties, er nog steeds een aanzienlijke prestatiekloof bestaat voordat we kunnen stellen dat een volgmodel een waar begrip van objectpermanentie heeft verworven.
English
Tracking objects with persistence in cluttered and dynamic environments remains a difficult challenge for computer vision systems. In this paper, we introduce TCOW, a new benchmark and model for visual tracking through heavy occlusion and containment. We set up a task where the goal is to, given a video sequence, segment both the projected extent of the target object, as well as the surrounding container or occluder whenever one exists. To study this task, we create a mixture of synthetic and annotated real datasets to support both supervised learning and structured evaluation of model performance under various forms of task variation, such as moving or nested containment. We evaluate two recent transformer-based video models and find that while they can be surprisingly capable of tracking targets under certain settings of task variation, there remains a considerable performance gap before we can claim a tracking model to have acquired a true notion of object permanence.
PDF10January 3, 2026