ChatPaper.aiChatPaper

Visuele Synchronisatie: Synchronisatie van Meerdere Camera's via Objectbeweging in Kruisbeeld

Visual Sync: Multi-Camera Synchronization via Cross-View Object Motion

December 1, 2025
Auteurs: Shaowei Liu, David Yifan Yao, Saurabh Gupta, Shenlong Wang
cs.AI

Samenvatting

Tegenwoordig kunnen mensen eenvoudig gedenkwaardige momenten vastleggen, zoals concerten, sportevenementen, lezingen, familiebijeenkomsten en verjaardagsfeestjes, met behulp van meerdere consumentencamera's. Het synchroniseren van deze beelden van verschillende camera's blijft echter een uitdaging. Bestaande methoden gaan uit van gecontroleerde omstandigheden, specifieke doelen, handmatige correctie of dure hardware. Wij presenteren VisualSync, een optimalisatiekader gebaseerd op multi-view dynamica dat niet-geposeerde, niet-gesynchroniseerde video's uitlijnt met een nauwkeurigheid van milliseconden. Onze belangrijkste inzicht is dat elk bewegend 3D-punt, wanneer het zichtbaar is in twee camera's, epipolar constraints volgt zodra het correct gesynchroniseerd is. Om dit te benutten, maakt VisualSync gebruik van kant-en-klare 3D-reconstructie, kenmerkenmatching en dichte tracking om tracklets, relatieve poses en cross-view correspondenties te extraheren. Vervolgens minimaliseert het gezamenlijk de epipolar fout om de tijdsverschuiving van elke camera te schatten. Experimenten op vier diverse, uitdagende datasets tonen aan dat VisualSync de baseline-methoden overtreft, met een mediane synchronisatiefout van minder dan 50 ms.
English
Today, people can easily record memorable moments, ranging from concerts, sports events, lectures, family gatherings, and birthday parties with multiple consumer cameras. However, synchronizing these cross-camera streams remains challenging. Existing methods assume controlled settings, specific targets, manual correction, or costly hardware. We present VisualSync, an optimization framework based on multi-view dynamics that aligns unposed, unsynchronized videos at millisecond accuracy. Our key insight is that any moving 3D point, when co-visible in two cameras, obeys epipolar constraints once properly synchronized. To exploit this, VisualSync leverages off-the-shelf 3D reconstruction, feature matching, and dense tracking to extract tracklets, relative poses, and cross-view correspondences. It then jointly minimizes the epipolar error to estimate each camera's time offset. Experiments on four diverse, challenging datasets show that VisualSync outperforms baseline methods, achieving an median synchronization error below 50 ms.
PDF11December 4, 2025