Synchronisation Visuelle : Synchronisation Multi-Caméra par le Mouvement d'Objets en Vue Croisée
Visual Sync: Multi-Camera Synchronization via Cross-View Object Motion
December 1, 2025
papers.authors: Shaowei Liu, David Yifan Yao, Saurabh Gupta, Shenlong Wang
cs.AI
papers.abstract
Aujourd'hui, il est facile pour les gens d'enregistrer des moments mémorables, qu'il s'agisse de concerts, d'événements sportifs, de conférences, de réunions familiales ou de fêtes d'anniversaire, à l'aide de multiples caméras grand public. Cependant, la synchronisation de ces flux multicaméras reste un défi. Les méthodes existantes supposent des conditions contrôlées, des cibles spécifiques, une correction manuelle ou du matériel coûteux. Nous présentons VisualSync, un cadre d'optimisation basé sur la dynamique multi-vues qui aligne des vidéos non mises en scène et non synchronisées avec une précision de l'ordre de la milliseconde. Notre idée clé est que tout point 3D en mouvement, lorsqu'il est co-visible dans deux caméras, obéit aux contraintes épipolaires une fois correctement synchronisé. Pour exploiter cela, VisualSync utilise des techniques standard de reconstruction 3D, d'appariement de caractéristiques et de suivi dense pour extraire des séquences de traces (tracklets), les poses relatives et les correspondances inter-vues. Il minimise ensuite conjointement l'erreur épipolaire pour estimer le décalage temporel de chaque caméra. Les expériences menées sur quatre ensembles de données variés et complexes montrent que VisualSync surpasse les méthodes de référence, atteignant une erreur médiane de synchronisation inférieure à 50 ms.
English
Today, people can easily record memorable moments, ranging from concerts, sports events, lectures, family gatherings, and birthday parties with multiple consumer cameras. However, synchronizing these cross-camera streams remains challenging. Existing methods assume controlled settings, specific targets, manual correction, or costly hardware. We present VisualSync, an optimization framework based on multi-view dynamics that aligns unposed, unsynchronized videos at millisecond accuracy. Our key insight is that any moving 3D point, when co-visible in two cameras, obeys epipolar constraints once properly synchronized. To exploit this, VisualSync leverages off-the-shelf 3D reconstruction, feature matching, and dense tracking to extract tracklets, relative poses, and cross-view correspondences. It then jointly minimizes the epipolar error to estimate each camera's time offset. Experiments on four diverse, challenging datasets show that VisualSync outperforms baseline methods, achieving an median synchronization error below 50 ms.