Sincronizzazione Visiva: Sincronizzazione Multi-Camera tramite Movimento di Oggetti in Vista Incrociata
Visual Sync: Multi-Camera Synchronization via Cross-View Object Motion
December 1, 2025
Autori: Shaowei Liu, David Yifan Yao, Saurabh Gupta, Shenlong Wang
cs.AI
Abstract
Oggi le persone possono facilmente registrare momenti memorabili, come concerti, eventi sportivi, lezioni, riunioni familiari e feste di compleanno, utilizzando molteplici videocamere consumer. Tuttavia, la sincronizzazione di questi flussi video multi-camera rimane una sfida. I metodi esistenti presuppongono ambienti controllati, soggetti specifici, correzioni manuali o hardware costoso. Presentiamo VisualSync, un framework di ottimizzazione basato sulla dinamica multi-vista che allinea video non preparati e non sincronizzati con precisione al millisecondo. La nostra intuizione chiave è che qualsiasi punto 3D in movimento, quando visibile contemporaneamente in due telecamere, obbedisce ai vincoli epipolari una volta sincronizzato correttamente. Per sfruttare ciò, VisualSync utilizza tecniche standard di ricostruzione 3D, corrispondenza di caratteristiche e tracciamento denso per estrarre traiettorie, pose relative e corrispondenze incrociate tra le viste. Successivamente, minimizza congiuntamente l'errore epipolare per stimare lo sfasamento temporale di ogni telecamera. Esperimenti su quattro dataset diversificati e complessi dimostrano che VisualSync supera i metodi baseline, raggiungendo un errore di sincronizzazione mediano inferiore a 50 ms.
English
Today, people can easily record memorable moments, ranging from concerts, sports events, lectures, family gatherings, and birthday parties with multiple consumer cameras. However, synchronizing these cross-camera streams remains challenging. Existing methods assume controlled settings, specific targets, manual correction, or costly hardware. We present VisualSync, an optimization framework based on multi-view dynamics that aligns unposed, unsynchronized videos at millisecond accuracy. Our key insight is that any moving 3D point, when co-visible in two cameras, obeys epipolar constraints once properly synchronized. To exploit this, VisualSync leverages off-the-shelf 3D reconstruction, feature matching, and dense tracking to extract tracklets, relative poses, and cross-view correspondences. It then jointly minimizes the epipolar error to estimate each camera's time offset. Experiments on four diverse, challenging datasets show that VisualSync outperforms baseline methods, achieving an median synchronization error below 50 ms.