ChatPaper.aiChatPaper

Rastreamento através de Contêineres e Oclusores em Ambientes Reais

Tracking through Containers and Occluders in the Wild

May 4, 2023
Autores: Basile Van Hoorick, Pavel Tokmakov, Simon Stent, Jie Li, Carl Vondrick
cs.AI

Resumo

Rastrear objetos com persistência em ambientes desordenados e dinâmicos continua sendo um desafio difícil para sistemas de visão computacional. Neste artigo, apresentamos o TCOW, um novo benchmark e modelo para rastreamento visual em situações de oclusão intensa e contenção. Definimos uma tarefa em que o objetivo é, dada uma sequência de vídeo, segmentar tanto a extensão projetada do objeto alvo quanto o recipiente ou oclusor circundante, sempre que existir. Para estudar essa tarefa, criamos uma mistura de conjuntos de dados sintéticos e reais anotados para apoiar tanto o aprendizado supervisionado quanto a avaliação estruturada do desempenho do modelo sob várias formas de variação da tarefa, como contenção móvel ou aninhada. Avaliamos dois modelos recentes de vídeo baseados em transformers e descobrimos que, embora eles possam ser surpreendentemente capazes de rastrear alvos em certas configurações de variação da tarefa, ainda há uma lacuna considerável de desempenho antes que possamos afirmar que um modelo de rastreamento adquiriu uma noção verdadeira de permanência do objeto.
English
Tracking objects with persistence in cluttered and dynamic environments remains a difficult challenge for computer vision systems. In this paper, we introduce TCOW, a new benchmark and model for visual tracking through heavy occlusion and containment. We set up a task where the goal is to, given a video sequence, segment both the projected extent of the target object, as well as the surrounding container or occluder whenever one exists. To study this task, we create a mixture of synthetic and annotated real datasets to support both supervised learning and structured evaluation of model performance under various forms of task variation, such as moving or nested containment. We evaluate two recent transformer-based video models and find that while they can be surprisingly capable of tracking targets under certain settings of task variation, there remains a considerable performance gap before we can claim a tracking model to have acquired a true notion of object permanence.
PDF10January 3, 2026