Многовидовое отслеживание 3D-точек

Аннотация

Мы представляем первый основанный на данных трекер трехмерных точек для многокамерных систем, предназначенный для отслеживания произвольных точек в динамических сценах с использованием нескольких камер. В отличие от существующих монокулярных трекеров, которые сталкиваются с проблемами неоднозначности глубины и окклюзии, или предыдущих многокамерных методов, требующих более 20 камер и трудоемкой оптимизации для каждой последовательности, наша модель с прямым распространением напрямую предсказывает трехмерные соответствия с использованием практичного числа камер (например, четырех), обеспечивая надежное и точное онлайн-отслеживание. При известных положениях камер и глубине, полученной с помощью сенсоров или оцененной по многокамерным данным, наш трекер объединяет признаки из нескольких камер в единое облако точек и применяет корреляцию по k ближайшим соседям вместе с обновлением на основе трансформера для надежного определения долгосрочных трехмерных соответствий, даже в условиях окклюзии. Мы обучаем модель на 5 тысячах синтетических многокамерных последовательностей Kubric и оцениваем на двух реальных наборах данных: Panoptic Studio и DexYCB, достигая медианных ошибок траекторий 3,1 см и 2,0 см соответственно. Наш метод хорошо обобщается на различные конфигурации камер с 1-8 видами с разными углами обзора и длинами видео от 24 до 150 кадров. Выпуская наш трекер вместе с наборами данных для обучения и оценки, мы стремимся установить новый стандарт для исследований в области многокамерного трехмерного отслеживания и предоставить практичный инструмент для реальных приложений. Страница проекта доступна по адресу https://ethz-vlg.github.io/mvtracker.

English

We introduce the first data-driven multi-view 3D point tracker, designed to track arbitrary points in dynamic scenes using multiple camera views. Unlike existing monocular trackers, which struggle with depth ambiguities and occlusion, or prior multi-camera methods that require over 20 cameras and tedious per-sequence optimization, our feed-forward model directly predicts 3D correspondences using a practical number of cameras (e.g., four), enabling robust and accurate online tracking. Given known camera poses and either sensor-based or estimated multi-view depth, our tracker fuses multi-view features into a unified point cloud and applies k-nearest-neighbors correlation alongside a transformer-based update to reliably estimate long-range 3D correspondences, even under occlusion. We train on 5K synthetic multi-view Kubric sequences and evaluate on two real-world benchmarks: Panoptic Studio and DexYCB, achieving median trajectory errors of 3.1 cm and 2.0 cm, respectively. Our method generalizes well to diverse camera setups of 1-8 views with varying vantage points and video lengths of 24-150 frames. By releasing our tracker alongside training and evaluation datasets, we aim to set a new standard for multi-view 3D tracking research and provide a practical tool for real-world applications. Project page available at https://ethz-vlg.github.io/mvtracker.

Многовидовое отслеживание 3D-точек

Multi-View 3D Point Tracking

Аннотация

Support