ChatPaper.aiChatPaper

Многовидовое отслеживание 3D-точек

Multi-View 3D Point Tracking

August 28, 2025
Авторы: Frano Rajič, Haofei Xu, Marko Mihajlovic, Siyuan Li, Irem Demir, Emircan Gündoğdu, Lei Ke, Sergey Prokudin, Marc Pollefeys, Siyu Tang
cs.AI

Аннотация

Мы представляем первый основанный на данных трекер трехмерных точек для многокамерных систем, предназначенный для отслеживания произвольных точек в динамических сценах с использованием нескольких камер. В отличие от существующих монокулярных трекеров, которые сталкиваются с проблемами неоднозначности глубины и окклюзии, или предыдущих многокамерных методов, требующих более 20 камер и трудоемкой оптимизации для каждой последовательности, наша модель с прямым распространением напрямую предсказывает трехмерные соответствия с использованием практичного числа камер (например, четырех), обеспечивая надежное и точное онлайн-отслеживание. При известных положениях камер и глубине, полученной с помощью сенсоров или оцененной по многокамерным данным, наш трекер объединяет признаки из нескольких камер в единое облако точек и применяет корреляцию по k ближайшим соседям вместе с обновлением на основе трансформера для надежного определения долгосрочных трехмерных соответствий, даже в условиях окклюзии. Мы обучаем модель на 5 тысячах синтетических многокамерных последовательностей Kubric и оцениваем на двух реальных наборах данных: Panoptic Studio и DexYCB, достигая медианных ошибок траекторий 3,1 см и 2,0 см соответственно. Наш метод хорошо обобщается на различные конфигурации камер с 1-8 видами с разными углами обзора и длинами видео от 24 до 150 кадров. Выпуская наш трекер вместе с наборами данных для обучения и оценки, мы стремимся установить новый стандарт для исследований в области многокамерного трехмерного отслеживания и предоставить практичный инструмент для реальных приложений. Страница проекта доступна по адресу https://ethz-vlg.github.io/mvtracker.
English
We introduce the first data-driven multi-view 3D point tracker, designed to track arbitrary points in dynamic scenes using multiple camera views. Unlike existing monocular trackers, which struggle with depth ambiguities and occlusion, or prior multi-camera methods that require over 20 cameras and tedious per-sequence optimization, our feed-forward model directly predicts 3D correspondences using a practical number of cameras (e.g., four), enabling robust and accurate online tracking. Given known camera poses and either sensor-based or estimated multi-view depth, our tracker fuses multi-view features into a unified point cloud and applies k-nearest-neighbors correlation alongside a transformer-based update to reliably estimate long-range 3D correspondences, even under occlusion. We train on 5K synthetic multi-view Kubric sequences and evaluate on two real-world benchmarks: Panoptic Studio and DexYCB, achieving median trajectory errors of 3.1 cm and 2.0 cm, respectively. Our method generalizes well to diverse camera setups of 1-8 views with varying vantage points and video lengths of 24-150 frames. By releasing our tracker alongside training and evaluation datasets, we aim to set a new standard for multi-view 3D tracking research and provide a practical tool for real-world applications. Project page available at https://ethz-vlg.github.io/mvtracker.
PDF142August 29, 2025