Multi-View 3D-puntvolging
Multi-View 3D Point Tracking
August 28, 2025
Auteurs: Frano Rajič, Haofei Xu, Marko Mihajlovic, Siyuan Li, Irem Demir, Emircan Gündoğdu, Lei Ke, Sergey Prokudin, Marc Pollefeys, Siyu Tang
cs.AI
Samenvatting
We introduceren de eerste data-gedreven multi-view 3D-puntvolger, ontworpen om willekeurige punten in dynamische scènes te volgen met behulp van meerdere camerabeelden. In tegenstelling tot bestaande monocular trackers, die moeite hebben met diepteambiguïteiten en occlusie, of eerdere multi-cameramethoden die meer dan 20 camera's en tijdrovende per-sequentie optimalisatie vereisen, voorspelt ons feed-forward model direct 3D-correspondenties met een praktisch aantal camera's (bijvoorbeeld vier), wat robuuste en nauwkeurige online tracking mogelijk maakt. Gegeven bekende cameraposities en ofwel sensor-gebaseerde of geschatte multi-view diepte, fuseert onze tracker multi-view kenmerken in een verenigd puntenwolk en past k-nearest-neighbors correlatie toe naast een transformer-gebaseerde update om betrouwbaar langeafstands 3D-correspondenties te schatten, zelfs onder occlusie. We trainen op 5K synthetische multi-view Kubric-sequenties en evalueren op twee real-world benchmarks: Panoptic Studio en DexYCB, waarbij we mediane trajectfouten van respectievelijk 3,1 cm en 2,0 cm behalen. Onze methode generaliseert goed naar diverse cameraopstellingen van 1-8 views met variërende gezichtspunten en videolengtes van 24-150 frames. Door onze tracker samen met trainings- en evaluatiedatasets vrij te geven, streven we ernaar een nieuwe standaard te zetten voor multi-view 3D-trackingonderzoek en een praktisch hulpmiddel te bieden voor real-world toepassingen. Projectpagina beschikbaar op https://ethz-vlg.github.io/mvtracker.
English
We introduce the first data-driven multi-view 3D point tracker, designed to
track arbitrary points in dynamic scenes using multiple camera views. Unlike
existing monocular trackers, which struggle with depth ambiguities and
occlusion, or prior multi-camera methods that require over 20 cameras and
tedious per-sequence optimization, our feed-forward model directly predicts 3D
correspondences using a practical number of cameras (e.g., four), enabling
robust and accurate online tracking. Given known camera poses and either
sensor-based or estimated multi-view depth, our tracker fuses multi-view
features into a unified point cloud and applies k-nearest-neighbors correlation
alongside a transformer-based update to reliably estimate long-range 3D
correspondences, even under occlusion. We train on 5K synthetic multi-view
Kubric sequences and evaluate on two real-world benchmarks: Panoptic Studio and
DexYCB, achieving median trajectory errors of 3.1 cm and 2.0 cm, respectively.
Our method generalizes well to diverse camera setups of 1-8 views with varying
vantage points and video lengths of 24-150 frames. By releasing our tracker
alongside training and evaluation datasets, we aim to set a new standard for
multi-view 3D tracking research and provide a practical tool for real-world
applications. Project page available at https://ethz-vlg.github.io/mvtracker.