Sincronização Visual: Sincronização Multicâmera via Movimento de Objetos em Visão Cruzada

Resumo

Hoje em dia, as pessoas podem facilmente gravar momentos memoráveis — como concertos, eventos desportivos, palestras, reuniões familiares e festas de aniversário — utilizando várias câmaras de consumo. No entanto, sincronizar estes fluxos de vídeo multicâmaras continua a ser um desafio. Os métodos existentes partem do pressuposto de configurações controladas, alvos específicos, correção manual ou hardware dispendioso. Apresentamos o VisualSync, uma estrutura de otimização baseada em dinâmicas multivista que alinha vídeos não posados e não sincronizados com precisão ao milissegundo. A nossa principal perceção é que qualquer ponto 3D em movimento, quando co-visível em duas câmaras, obedece a restrições epipolares uma vez devidamente sincronizado. Para explorar isto, o VisualSync recorre a reconstrução 3D pronta a usar, correspondência de características e rastreamento denso para extrair segmentos de trajetórias (tracklets), poses relativas e correspondências entre vistas. Em seguida, minimiza conjuntamente o erro epipolar para estimar o desvio temporal de cada câmara. Experiências em quatro conjuntos de dados diversificados e complexos demonstram que o VisualSync supera os métodos de base, alcançando um erro mediano de sincronização inferior a 50 ms.

English

Today, people can easily record memorable moments, ranging from concerts, sports events, lectures, family gatherings, and birthday parties with multiple consumer cameras. However, synchronizing these cross-camera streams remains challenging. Existing methods assume controlled settings, specific targets, manual correction, or costly hardware. We present VisualSync, an optimization framework based on multi-view dynamics that aligns unposed, unsynchronized videos at millisecond accuracy. Our key insight is that any moving 3D point, when co-visible in two cameras, obeys epipolar constraints once properly synchronized. To exploit this, VisualSync leverages off-the-shelf 3D reconstruction, feature matching, and dense tracking to extract tracklets, relative poses, and cross-view correspondences. It then jointly minimizes the epipolar error to estimate each camera's time offset. Experiments on four diverse, challenging datasets show that VisualSync outperforms baseline methods, achieving an median synchronization error below 50 ms.

Sincronização Visual: Sincronização Multicâmera via Movimento de Objetos em Visão Cruzada

Visual Sync: Multi-Camera Synchronization via Cross-View Object Motion

Resumo

Support