ChatPaper.aiChatPaper

Multi-View 3D-Punktverfolgung

Multi-View 3D Point Tracking

August 28, 2025
papers.authors: Frano Rajič, Haofei Xu, Marko Mihajlovic, Siyuan Li, Irem Demir, Emircan Gündoğdu, Lei Ke, Sergey Prokudin, Marc Pollefeys, Siyu Tang
cs.AI

papers.abstract

Wir stellen den ersten datengetriebenen Multi-View-3D-Punkt-Tracker vor, der entwickelt wurde, um beliebige Punkte in dynamischen Szenen mithilfe mehrerer Kameraperspektiven zu verfolgen. Im Gegensatz zu bestehenden monokularen Trackern, die mit Tiefenunschärfen und Verdeckungen kämpfen, oder früheren Multi-Kamera-Methoden, die über 20 Kameras und aufwendige pro-Sequenz-Optimierung erfordern, sagt unser Feed-Forward-Modell 3D-Korrespondenzen direkt mit einer praktikablen Anzahl von Kameras (z.B. vier) voraus, was robustes und präzises Online-Tracking ermöglicht. Bei bekannten Kameraposen und entweder sensor-basierten oder geschätzten Multi-View-Tiefen fusioniert unser Tracker Multi-View-Merkmale in eine einheitliche Punktwolke und wendet k-nächste-Nachbarn-Korrelation zusammen mit einem Transformer-basierten Update an, um zuverlässig langstreckige 3D-Korrespondenzen zu schätzen, selbst bei Verdeckungen. Wir trainieren auf 5K synthetischen Multi-View-Kubric-Sequenzen und evaluieren auf zwei realen Benchmarks: Panoptic Studio und DexYCB, wobei wir mediane Trajektorienfehler von 3,1 cm bzw. 2,0 cm erreichen. Unsere Methode verallgemeinert gut auf diverse Kamerasetups mit 1-8 Ansichten und variierenden Blickwinkeln sowie Videolängen von 24-150 Frames. Durch die Veröffentlichung unseres Trackers zusammen mit Trainings- und Evaluierungsdatensätzen streben wir an, einen neuen Standard für die Multi-View-3D-Tracking-Forschung zu setzen und ein praktisches Werkzeug für reale Anwendungen bereitzustellen. Projektseite verfügbar unter https://ethz-vlg.github.io/mvtracker.
English
We introduce the first data-driven multi-view 3D point tracker, designed to track arbitrary points in dynamic scenes using multiple camera views. Unlike existing monocular trackers, which struggle with depth ambiguities and occlusion, or prior multi-camera methods that require over 20 cameras and tedious per-sequence optimization, our feed-forward model directly predicts 3D correspondences using a practical number of cameras (e.g., four), enabling robust and accurate online tracking. Given known camera poses and either sensor-based or estimated multi-view depth, our tracker fuses multi-view features into a unified point cloud and applies k-nearest-neighbors correlation alongside a transformer-based update to reliably estimate long-range 3D correspondences, even under occlusion. We train on 5K synthetic multi-view Kubric sequences and evaluate on two real-world benchmarks: Panoptic Studio and DexYCB, achieving median trajectory errors of 3.1 cm and 2.0 cm, respectively. Our method generalizes well to diverse camera setups of 1-8 views with varying vantage points and video lengths of 24-150 frames. By releasing our tracker alongside training and evaluation datasets, we aim to set a new standard for multi-view 3D tracking research and provide a practical tool for real-world applications. Project page available at https://ethz-vlg.github.io/mvtracker.
PDF112August 29, 2025