Visuelle Synchronisation: Multi-Kamera-Synchronisation durch objektspezifische Bewegungsanalyse über Kameraperspektiven hinweg
Visual Sync: Multi-Camera Synchronization via Cross-View Object Motion
December 1, 2025
papers.authors: Shaowei Liu, David Yifan Yao, Saurabh Gupta, Shenlong Wang
cs.AI
papers.abstract
Heutzutage können Menschen mit verschiedenen Consumer-Kameras problemlos unvergessliche Momente festhalten – von Konzerten über Sportveranstaltungen, Vorträge und Familientreffen bis hin zu Geburtstagsfeiern. Die Synchronisierung dieser kameraübergreifenden Aufnahmen bleibt jedoch eine Herausforderung. Bestehende Methoden setzen kontrollierte Aufnahmebedingungen, spezifische Ziele, manuelle Korrekturen oder teure Hardware voraus. Wir stellen VisualSync vor, ein Optimierungsframework auf Basis von Multi-View-Dynamik, das nicht positionierte und nicht synchronisierte Videos mit Millisekundengenauigkeit ausrichtet. Unser zentraler Ansatz ist, dass jeder bewegte 3D-Punkt, sobald er in zwei Kameras gemeinsam sichtbar ist und korrekt synchronisiert wurde, epipolaren Constraints folgt. Um dies zu nutzen, setzt VisualSync auf verfügbare 3D-Rekonstruktionsverfahren, Feature-Matching und dichtes Tracking, um Tracklets, relative Posen und kameraübergreifende Korrespondenzen zu extrahieren. Anschließend wird der epipolare Fehler gemeinsam minimiert, um den Zeitversatz jeder Kamera zu schätzen. Experimente mit vier vielfältigen, anspruchsvollen Datensätzen zeigen, dass VisualSync Baseline-Methoden übertrifft und einen medianen Synchronisationsfehler von unter 50 ms erreicht.
English
Today, people can easily record memorable moments, ranging from concerts, sports events, lectures, family gatherings, and birthday parties with multiple consumer cameras. However, synchronizing these cross-camera streams remains challenging. Existing methods assume controlled settings, specific targets, manual correction, or costly hardware. We present VisualSync, an optimization framework based on multi-view dynamics that aligns unposed, unsynchronized videos at millisecond accuracy. Our key insight is that any moving 3D point, when co-visible in two cameras, obeys epipolar constraints once properly synchronized. To exploit this, VisualSync leverages off-the-shelf 3D reconstruction, feature matching, and dense tracking to extract tracklets, relative poses, and cross-view correspondences. It then jointly minimizes the epipolar error to estimate each camera's time offset. Experiments on four diverse, challenging datasets show that VisualSync outperforms baseline methods, achieving an median synchronization error below 50 ms.