ChatPaper.aiChatPaper

ビジュアルシンク:クロスビュー物体運動によるマルチカメラ同期

Visual Sync: Multi-Camera Synchronization via Cross-View Object Motion

December 1, 2025
著者: Shaowei Liu, David Yifan Yao, Saurabh Gupta, Shenlong Wang
cs.AI

要旨

今日では、コンサートやスポーツイベント、講演、家族の集い、誕生日パーティーなど、人々は複数の民生用カメラで記憶に残る瞬間を容易に記録できる。しかし、これらのクロスカメラストリームを同期させることは依然として困難な課題である。既存の手法は、制御された環境、特定の被写体、手動補正、または高価なハードウェアを前提としている。本研究では、ミリ秒精度でポーズ調整されていない非同期ビデオを整列させる、マルチビューダイナミクスに基づく最適化フレームワークVisualSyncを提案する。重要な知見は、2つのカメラで共同可視となる任意の移動3D点は、適切に同期されればエピポーラ制約に従うことである。これを活用するため、VisualSyncは既製の3D復元、特徴マッチング、密な追跡を利用して、トラックレット、相対ポーズ、クロスビュー対応を抽出する。その後、エピポーラ誤差を共同で最小化し、各カメラの時間オフセットを推定する。4つの多様で困難なデータセットを用いた実験により、VisualSyncがベースライン手法を上回り、中央値同期誤差50ms未満を達成することを示す。
English
Today, people can easily record memorable moments, ranging from concerts, sports events, lectures, family gatherings, and birthday parties with multiple consumer cameras. However, synchronizing these cross-camera streams remains challenging. Existing methods assume controlled settings, specific targets, manual correction, or costly hardware. We present VisualSync, an optimization framework based on multi-view dynamics that aligns unposed, unsynchronized videos at millisecond accuracy. Our key insight is that any moving 3D point, when co-visible in two cameras, obeys epipolar constraints once properly synchronized. To exploit this, VisualSync leverages off-the-shelf 3D reconstruction, feature matching, and dense tracking to extract tracklets, relative poses, and cross-view correspondences. It then jointly minimizes the epipolar error to estimate each camera's time offset. Experiments on four diverse, challenging datasets show that VisualSync outperforms baseline methods, achieving an median synchronization error below 50 ms.
PDF11December 4, 2025