Отслеживание через контейнеры и преграды в естественных условиях
Tracking through Containers and Occluders in the Wild
May 4, 2023
Авторы: Basile Van Hoorick, Pavel Tokmakov, Simon Stent, Jie Li, Carl Vondrick
cs.AI
Аннотация
Отслеживание объектов с сохранением их идентичности в загроможденных и динамических средах остается сложной задачей для систем компьютерного зрения. В данной статье мы представляем TCOW — новый эталонный набор данных и модель для визуального отслеживания в условиях сильной окклюзии и ограничения. Мы формулируем задачу, цель которой заключается в том, чтобы для заданной видеопоследовательности сегментировать как проекцию целевого объекта, так и окружающий контейнер или объект, вызывающий окклюзию, если таковой присутствует. Для изучения этой задачи мы создаем комбинацию синтетических и аннотированных реальных наборов данных, которые поддерживают как обучение с учителем, так и структурированную оценку производительности модели при различных вариациях задачи, таких как перемещение или вложенное ограничение. Мы оцениваем две недавние модели на основе трансформеров для работы с видео и обнаруживаем, что, хотя они могут быть удивительно эффективны в отслеживании целей при определенных условиях вариаций задачи, остается значительный разрыв в производительности, прежде чем можно будет утверждать, что модель отслеживания приобрела истинное понимание постоянства объекта.
English
Tracking objects with persistence in cluttered and dynamic environments
remains a difficult challenge for computer vision systems. In this paper, we
introduce TCOW, a new benchmark and model for visual tracking
through heavy occlusion and containment. We set up a task where the goal is to,
given a video sequence, segment both the projected extent of the target object,
as well as the surrounding container or occluder whenever one exists. To study
this task, we create a mixture of synthetic and annotated real datasets to
support both supervised learning and structured evaluation of model performance
under various forms of task variation, such as moving or nested containment. We
evaluate two recent transformer-based video models and find that while they can
be surprisingly capable of tracking targets under certain settings of task
variation, there remains a considerable performance gap before we can claim a
tracking model to have acquired a true notion of object permanence.