Sincronización Visual: Sincronización de Múltiples Cámaras mediante Movimiento de Objetos en Vista Cruzada
Visual Sync: Multi-Camera Synchronization via Cross-View Object Motion
December 1, 2025
Autores: Shaowei Liu, David Yifan Yao, Saurabh Gupta, Shenlong Wang
cs.AI
Resumen
Hoy en día, las personas pueden grabar fácilmente momentos memorables —como conciertos, eventos deportivos, conferencias, reuniones familiares y fiestas de cumpleaños— utilizando múltiples cámaras de consumo. Sin embargo, sincronizar estos flujos de vídeo multicámara sigue siendo un desafío. Los métodos existentes asumen entornos controlados, objetivos específicos, corrección manual o hardware costoso. Presentamos VisualSync, un marco de optimización basado en dinámicas multivista que alinea vídeos no preparados y no sincronizados con precisión de milisegundos. Nuestra idea clave es que cualquier punto 3D en movimiento, cuando es covisible en dos cámaras, obedece a restricciones epipolares una vez correctamente sincronizado. Para aprovechar esto, VisualSync utiliza técnicas estándar de reconstrucción 3D, correspondencia de características y seguimiento denso para extraer tracklets, poses relativas y correspondencias entre vistas. Luego minimiza conjuntamente el error epipolar para estimar el desfase temporal de cada cámara. Los experimentos en cuatro conjuntos de datos diversos y desafiantes muestran que VisualSync supera a los métodos base, logrando un error de sincronización mediano inferior a 50 ms.
English
Today, people can easily record memorable moments, ranging from concerts, sports events, lectures, family gatherings, and birthday parties with multiple consumer cameras. However, synchronizing these cross-camera streams remains challenging. Existing methods assume controlled settings, specific targets, manual correction, or costly hardware. We present VisualSync, an optimization framework based on multi-view dynamics that aligns unposed, unsynchronized videos at millisecond accuracy. Our key insight is that any moving 3D point, when co-visible in two cameras, obeys epipolar constraints once properly synchronized. To exploit this, VisualSync leverages off-the-shelf 3D reconstruction, feature matching, and dense tracking to extract tracklets, relative poses, and cross-view correspondences. It then jointly minimizes the epipolar error to estimate each camera's time offset. Experiments on four diverse, challenging datasets show that VisualSync outperforms baseline methods, achieving an median synchronization error below 50 ms.