Visual Sync: Синхронизация нескольких камер на основе кросс-вью анализа движения объектов
Visual Sync: Multi-Camera Synchronization via Cross-View Object Motion
December 1, 2025
Авторы: Shaowei Liu, David Yifan Yao, Saurabh Gupta, Shenlong Wang
cs.AI
Аннотация
Сегодня люди могут легко записывать памятные моменты — концерты, спортивные мероприятия, лекции, семейные встречи и дни рождения — с помощью множества потребительских камер. Однако синхронизация этих потоков с разных камер остается сложной задачей. Существующие методы предполагают контролируемые условия съемки, специфические цели, ручную коррекцию или дорогостоящее оборудование. Мы представляем VisualSync — оптимизационный фреймворк, основанный на многовидовой динамике, который выравнивает непозированные и несинхронизированные видео с точностью до миллисекунды. Наше ключевое наблюдение заключается в том, что любая движущаяся 3D-точка, будучи видимой в двух камерах, подчиняется эпиполярным ограничениям при правильной синхронизации. Для этого VisualSync использует готовые решения для 3D-реконструкции, сопоставления признаков и плотного отслеживания для извлечения треклетов, относительных поз и соответствий между видами. Затем метод совместно минимизирует эпиполярную ошибку для оценки временного смещения каждой камеры. Эксперименты на четырех разнообразных сложных наборах данных показывают, что VisualSync превосходит базовые методы, достигая медианной ошибки синхронизации менее 50 мс.
English
Today, people can easily record memorable moments, ranging from concerts, sports events, lectures, family gatherings, and birthday parties with multiple consumer cameras. However, synchronizing these cross-camera streams remains challenging. Existing methods assume controlled settings, specific targets, manual correction, or costly hardware. We present VisualSync, an optimization framework based on multi-view dynamics that aligns unposed, unsynchronized videos at millisecond accuracy. Our key insight is that any moving 3D point, when co-visible in two cameras, obeys epipolar constraints once properly synchronized. To exploit this, VisualSync leverages off-the-shelf 3D reconstruction, feature matching, and dense tracking to extract tracklets, relative poses, and cross-view correspondences. It then jointly minimizes the epipolar error to estimate each camera's time offset. Experiments on four diverse, challenging datasets show that VisualSync outperforms baseline methods, achieving an median synchronization error below 50 ms.