Tracciamento 3D di Punti Multi-Vista
Multi-View 3D Point Tracking
August 28, 2025
Autori: Frano Rajič, Haofei Xu, Marko Mihajlovic, Siyuan Li, Irem Demir, Emircan Gündoğdu, Lei Ke, Sergey Prokudin, Marc Pollefeys, Siyu Tang
cs.AI
Abstract
Introduciamo il primo tracker 3D multi-vista basato su dati, progettato per tracciare punti arbitrari in scene dinamiche utilizzando più viste della telecamera. A differenza dei tracker monoculari esistenti, che faticano con le ambiguità di profondità e l'occlusione, o dei precedenti metodi multi-camera che richiedono oltre 20 telecamere e un'ottimizzazione laboriosa per ogni sequenza, il nostro modello feed-forward prevede direttamente le corrispondenze 3D utilizzando un numero pratico di telecamere (ad esempio, quattro), consentendo un tracciamento online robusto e accurato. Dati i pose delle telecamere noti e la profondità multi-vista basata su sensori o stimata, il nostro tracker fonde le caratteristiche multi-vista in una nuvola di punti unificata e applica la correlazione k-nearest-neighbors insieme a un aggiornamento basato su transformer per stimare in modo affidabile corrispondenze 3D a lungo raggio, anche in caso di occlusione. Addestriamo su 5K sequenze sintetiche multi-vista Kubric e valutiamo su due benchmark del mondo reale: Panoptic Studio e DexYCB, ottenendo errori mediani della traiettoria di 3,1 cm e 2,0 cm, rispettivamente. Il nostro metodo si generalizza bene a diverse configurazioni di telecamere da 1 a 8 viste con punti di vista variabili e lunghezze video da 24 a 150 fotogrammi. Rilasciando il nostro tracker insieme ai dataset di addestramento e valutazione, miriamo a stabilire un nuovo standard per la ricerca sul tracciamento 3D multi-vista e a fornire uno strumento pratico per applicazioni nel mondo reale. Pagina del progetto disponibile all'indirizzo https://ethz-vlg.github.io/mvtracker.
English
We introduce the first data-driven multi-view 3D point tracker, designed to
track arbitrary points in dynamic scenes using multiple camera views. Unlike
existing monocular trackers, which struggle with depth ambiguities and
occlusion, or prior multi-camera methods that require over 20 cameras and
tedious per-sequence optimization, our feed-forward model directly predicts 3D
correspondences using a practical number of cameras (e.g., four), enabling
robust and accurate online tracking. Given known camera poses and either
sensor-based or estimated multi-view depth, our tracker fuses multi-view
features into a unified point cloud and applies k-nearest-neighbors correlation
alongside a transformer-based update to reliably estimate long-range 3D
correspondences, even under occlusion. We train on 5K synthetic multi-view
Kubric sequences and evaluate on two real-world benchmarks: Panoptic Studio and
DexYCB, achieving median trajectory errors of 3.1 cm and 2.0 cm, respectively.
Our method generalizes well to diverse camera setups of 1-8 views with varying
vantage points and video lengths of 24-150 frames. By releasing our tracker
alongside training and evaluation datasets, we aim to set a new standard for
multi-view 3D tracking research and provide a practical tool for real-world
applications. Project page available at https://ethz-vlg.github.io/mvtracker.