ChatPaper.aiChatPaper

Seguimiento a través de contenedores y oclusores en entornos reales

Tracking through Containers and Occluders in the Wild

May 4, 2023
Autores: Basile Van Hoorick, Pavel Tokmakov, Simon Stent, Jie Li, Carl Vondrick
cs.AI

Resumen

El seguimiento de objetos con persistencia en entornos desordenados y dinámicos sigue siendo un desafío difícil para los sistemas de visión por computadora. En este artículo, presentamos TCOW, un nuevo punto de referencia y modelo para el seguimiento visual a través de oclusiones severas y contención. Definimos una tarea en la que el objetivo es, dado una secuencia de video, segmentar tanto la extensión proyectada del objeto objetivo como el contenedor u oclusor circundante, siempre que exista uno. Para estudiar esta tarea, creamos una mezcla de conjuntos de datos sintéticos y reales anotados para apoyar tanto el aprendizaje supervisado como la evaluación estructurada del rendimiento del modelo bajo diversas formas de variación de la tarea, como la contención en movimiento o anidada. Evaluamos dos modelos recientes basados en transformadores para video y encontramos que, aunque pueden ser sorprendentemente capaces de rastrear objetivos bajo ciertos ajustes de variación de la tarea, aún existe una brecha de rendimiento considerable antes de poder afirmar que un modelo de seguimiento ha adquirido una verdadera noción de permanencia del objeto.
English
Tracking objects with persistence in cluttered and dynamic environments remains a difficult challenge for computer vision systems. In this paper, we introduce TCOW, a new benchmark and model for visual tracking through heavy occlusion and containment. We set up a task where the goal is to, given a video sequence, segment both the projected extent of the target object, as well as the surrounding container or occluder whenever one exists. To study this task, we create a mixture of synthetic and annotated real datasets to support both supervised learning and structured evaluation of model performance under various forms of task variation, such as moving or nested containment. We evaluate two recent transformer-based video models and find that while they can be surprisingly capable of tracking targets under certain settings of task variation, there remains a considerable performance gap before we can claim a tracking model to have acquired a true notion of object permanence.
PDF10December 15, 2024