ChatPaper.aiChatPaper

Verfolgung durch Behälter und Verdeckungen in realen Umgebungen

Tracking through Containers and Occluders in the Wild

May 4, 2023
Autoren: Basile Van Hoorick, Pavel Tokmakov, Simon Stent, Jie Li, Carl Vondrick
cs.AI

Zusammenfassung

Das Verfolgen von Objekten mit Persistenz in unübersichtlichen und dynamischen Umgebungen bleibt eine schwierige Herausforderung für Computersysteme. In diesem Artikel stellen wir TCOW vor, einen neuen Benchmark und ein Modell für visuelles Tracking bei starker Verdeckung und Einschluss. Wir definieren eine Aufgabe, bei der es darum geht, in einem Videosequenz sowohl die projizierte Ausdehnung des Zielobjekts als auch das umgebende Behälter- oder Verdeckungsobjekt, sofern vorhanden, zu segmentieren. Um diese Aufgabe zu untersuchen, erstellen wir eine Mischung aus synthetischen und annotierten realen Datensätzen, die sowohl überwachtes Lernen als auch eine strukturierte Bewertung der Modellleistung unter verschiedenen Formen von Aufgabenvarianz, wie bewegliche oder verschachtelte Einschlüsse, ermöglichen. Wir evaluieren zwei aktuelle Transformer-basierte Videomodelle und stellen fest, dass sie zwar überraschend gut in der Lage sind, Ziele unter bestimmten Einstellungen der Aufgabenvarianz zu verfolgen, aber dennoch eine erhebliche Leistungslücke besteht, bevor wir behaupten können, dass ein Tracking-Modell ein echtes Verständnis von Objektpermanenz erlangt hat.
English
Tracking objects with persistence in cluttered and dynamic environments remains a difficult challenge for computer vision systems. In this paper, we introduce TCOW, a new benchmark and model for visual tracking through heavy occlusion and containment. We set up a task where the goal is to, given a video sequence, segment both the projected extent of the target object, as well as the surrounding container or occluder whenever one exists. To study this task, we create a mixture of synthetic and annotated real datasets to support both supervised learning and structured evaluation of model performance under various forms of task variation, such as moving or nested containment. We evaluate two recent transformer-based video models and find that while they can be surprisingly capable of tracking targets under certain settings of task variation, there remains a considerable performance gap before we can claim a tracking model to have acquired a true notion of object permanence.
PDF10December 15, 2024