ChatPaper.aiChatPaper

マルチビュー3Dポイントトラッキング

Multi-View 3D Point Tracking

August 28, 2025
著者: Frano Rajič, Haofei Xu, Marko Mihajlovic, Siyuan Li, Irem Demir, Emircan Gündoğdu, Lei Ke, Sergey Prokudin, Marc Pollefeys, Siyu Tang
cs.AI

要旨

我々は、複数のカメラビューを用いて動的シーン中の任意の点を追跡する、初のデータ駆動型マルチビュー3Dポイントトラッカーを紹介する。既存の単眼トラッカーは深度の曖昧さやオクルージョンに悩まされ、従来のマルチカメラ手法では20台以上のカメラとシーケンスごとの煩雑な最適化が必要であった。これに対し、我々のフィードフォワードモデルは実用的な数のカメラ(例えば4台)を用いて直接3D対応関係を予測し、堅牢かつ正確なオンライン追跡を可能にする。既知のカメラポーズとセンサーベースまたは推定されたマルチビュー深度を前提として、我々のトラッカーはマルチビューの特徴を統合された点群に融合し、k近傍相関とトランスフォーマーベースの更新を適用することで、オクルージョン下でも長距離の3D対応関係を確実に推定する。5,000の合成マルチビューKubricシーケンスで学習し、Panoptic StudioとDexYCBという2つの実世界ベンチマークで評価を行い、それぞれ3.1 cmと2.0 cmの中央軌道誤差を達成した。我々の手法は、1~8台のカメラセットアップと24~150フレームのビデオ長において、様々な視点に対して良好な汎用性を示す。トレーニングおよび評価データセットと共にトラッカーを公開することで、マルチビュー3D追跡研究の新たな基準を確立し、実世界アプリケーションのための実用的なツールを提供することを目指す。プロジェクトページはhttps://ethz-vlg.github.io/mvtrackerで公開中。
English
We introduce the first data-driven multi-view 3D point tracker, designed to track arbitrary points in dynamic scenes using multiple camera views. Unlike existing monocular trackers, which struggle with depth ambiguities and occlusion, or prior multi-camera methods that require over 20 cameras and tedious per-sequence optimization, our feed-forward model directly predicts 3D correspondences using a practical number of cameras (e.g., four), enabling robust and accurate online tracking. Given known camera poses and either sensor-based or estimated multi-view depth, our tracker fuses multi-view features into a unified point cloud and applies k-nearest-neighbors correlation alongside a transformer-based update to reliably estimate long-range 3D correspondences, even under occlusion. We train on 5K synthetic multi-view Kubric sequences and evaluate on two real-world benchmarks: Panoptic Studio and DexYCB, achieving median trajectory errors of 3.1 cm and 2.0 cm, respectively. Our method generalizes well to diverse camera setups of 1-8 views with varying vantage points and video lengths of 24-150 frames. By releasing our tracker alongside training and evaluation datasets, we aim to set a new standard for multi-view 3D tracking research and provide a practical tool for real-world applications. Project page available at https://ethz-vlg.github.io/mvtracker.
PDF142August 29, 2025