ChatPaper.aiChatPaper

Seguimiento de Puntos 3D con Múltiples Vistas

Multi-View 3D Point Tracking

August 28, 2025
Autores: Frano Rajič, Haofei Xu, Marko Mihajlovic, Siyuan Li, Irem Demir, Emircan Gündoğdu, Lei Ke, Sergey Prokudin, Marc Pollefeys, Siyu Tang
cs.AI

Resumen

Presentamos el primer rastreador de puntos 3D multi-vista basado en datos, diseñado para rastrear puntos arbitrarios en escenas dinámicas utilizando múltiples vistas de cámara. A diferencia de los rastreadores monoculares existentes, que tienen dificultades con las ambigüedades de profundidad y las oclusiones, o de los métodos previos multi-cámara que requieren más de 20 cámaras y una tediosa optimización por secuencia, nuestro modelo de avance directo predice directamente correspondencias 3D utilizando un número práctico de cámaras (por ejemplo, cuatro), permitiendo un rastreo robusto y preciso en tiempo real. Dadas las poses conocidas de las cámaras y la profundidad multi-vista basada en sensores o estimada, nuestro rastreador fusiona características multi-vista en una nube de puntos unificada y aplica correlación de k-vecinos más cercanos junto con una actualización basada en transformadores para estimar de manera confiable correspondencias 3D de largo alcance, incluso bajo oclusión. Entrenamos en 5K secuencias sintéticas multi-vista de Kubric y evaluamos en dos benchmarks del mundo real: Panoptic Studio y DexYCB, logrando errores medianos de trayectoria de 3.1 cm y 2.0 cm, respectivamente. Nuestro método generaliza bien a diversas configuraciones de cámara de 1-8 vistas con puntos de vista variables y longitudes de video de 24-150 fotogramas. Al liberar nuestro rastreador junto con los conjuntos de datos de entrenamiento y evaluación, buscamos establecer un nuevo estándar para la investigación en rastreo 3D multi-vista y proporcionar una herramienta práctica para aplicaciones del mundo real. Página del proyecto disponible en https://ethz-vlg.github.io/mvtracker.
English
We introduce the first data-driven multi-view 3D point tracker, designed to track arbitrary points in dynamic scenes using multiple camera views. Unlike existing monocular trackers, which struggle with depth ambiguities and occlusion, or prior multi-camera methods that require over 20 cameras and tedious per-sequence optimization, our feed-forward model directly predicts 3D correspondences using a practical number of cameras (e.g., four), enabling robust and accurate online tracking. Given known camera poses and either sensor-based or estimated multi-view depth, our tracker fuses multi-view features into a unified point cloud and applies k-nearest-neighbors correlation alongside a transformer-based update to reliably estimate long-range 3D correspondences, even under occlusion. We train on 5K synthetic multi-view Kubric sequences and evaluate on two real-world benchmarks: Panoptic Studio and DexYCB, achieving median trajectory errors of 3.1 cm and 2.0 cm, respectively. Our method generalizes well to diverse camera setups of 1-8 views with varying vantage points and video lengths of 24-150 frames. By releasing our tracker alongside training and evaluation datasets, we aim to set a new standard for multi-view 3D tracking research and provide a practical tool for real-world applications. Project page available at https://ethz-vlg.github.io/mvtracker.
PDF142August 29, 2025