ChatPaper.aiChatPaper

Suivi de points 3D multi-vues

Multi-View 3D Point Tracking

August 28, 2025
papers.authors: Frano Rajič, Haofei Xu, Marko Mihajlovic, Siyuan Li, Irem Demir, Emircan Gündoğdu, Lei Ke, Sergey Prokudin, Marc Pollefeys, Siyu Tang
cs.AI

papers.abstract

Nous présentons le premier tracker de points 3D multi-vues basé sur les données, conçu pour suivre des points arbitraires dans des scènes dynamiques en utilisant plusieurs vues caméra. Contrairement aux trackers monoculaires existants, qui peinent avec les ambiguïtés de profondeur et les occlusions, ou aux méthodes multi-caméras précédentes qui nécessitent plus de 20 caméras et une optimisation fastidieuse par séquence, notre modèle feed-forward prédit directement les correspondances 3D en utilisant un nombre pratique de caméras (par exemple, quatre), permettant un suivi en ligne robuste et précis. Avec des poses de caméra connues et une profondeur multi-vues basée sur des capteurs ou estimée, notre tracker fusionne les caractéristiques multi-vues en un nuage de points unifié et applique une corrélation des k-plus proches voisins ainsi qu'une mise à jour basée sur un transformateur pour estimer de manière fiable les correspondances 3D à longue portée, même sous occlusion. Nous entraînons sur 5K séquences multi-vues synthétiques Kubric et évaluons sur deux benchmarks du monde réel : Panoptic Studio et DexYCB, obtenant des erreurs médianes de trajectoire de 3,1 cm et 2,0 cm, respectivement. Notre méthode se généralise bien à diverses configurations de caméras de 1 à 8 vues avec des points de vue variés et des longueurs de vidéo de 24 à 150 images. En publiant notre tracker ainsi que les ensembles de données d'entraînement et d'évaluation, nous visons à établir un nouveau standard pour la recherche en suivi 3D multi-vues et à fournir un outil pratique pour les applications du monde réel. Page du projet disponible à l'adresse https://ethz-vlg.github.io/mvtracker.
English
We introduce the first data-driven multi-view 3D point tracker, designed to track arbitrary points in dynamic scenes using multiple camera views. Unlike existing monocular trackers, which struggle with depth ambiguities and occlusion, or prior multi-camera methods that require over 20 cameras and tedious per-sequence optimization, our feed-forward model directly predicts 3D correspondences using a practical number of cameras (e.g., four), enabling robust and accurate online tracking. Given known camera poses and either sensor-based or estimated multi-view depth, our tracker fuses multi-view features into a unified point cloud and applies k-nearest-neighbors correlation alongside a transformer-based update to reliably estimate long-range 3D correspondences, even under occlusion. We train on 5K synthetic multi-view Kubric sequences and evaluate on two real-world benchmarks: Panoptic Studio and DexYCB, achieving median trajectory errors of 3.1 cm and 2.0 cm, respectively. Our method generalizes well to diverse camera setups of 1-8 views with varying vantage points and video lengths of 24-150 frames. By releasing our tracker alongside training and evaluation datasets, we aim to set a new standard for multi-view 3D tracking research and provide a practical tool for real-world applications. Project page available at https://ethz-vlg.github.io/mvtracker.
PDF142August 29, 2025