ChatPaper.aiChatPaper

Rastreamento de Pontos 3D com Múltiplas Visões

Multi-View 3D Point Tracking

August 28, 2025
Autores: Frano Rajič, Haofei Xu, Marko Mihajlovic, Siyuan Li, Irem Demir, Emircan Gündoğdu, Lei Ke, Sergey Prokudin, Marc Pollefeys, Siyu Tang
cs.AI

Resumo

Apresentamos o primeiro rastreador de pontos 3D multi-visão baseado em dados, projetado para rastrear pontos arbitrários em cenas dinâmicas utilizando múltiplas visões de câmera. Diferentemente dos rastreadores monoculares existentes, que enfrentam dificuldades com ambiguidades de profundidade e oclusão, ou dos métodos multi-câmera anteriores que exigem mais de 20 câmeras e uma otimização tediosa por sequência, nosso modelo feed-forward prevê diretamente correspondências 3D utilizando um número prático de câmeras (por exemplo, quatro), permitindo um rastreamento online robusto e preciso. Dadas as poses conhecidas das câmeras e a profundidade multi-visão baseada em sensores ou estimada, nosso rastreador funde características multi-visão em uma nuvem de pontos unificada e aplica correlação de k-vizinhos-mais-próximos juntamente com uma atualização baseada em transformer para estimar de forma confiável correspondências 3D de longo alcance, mesmo sob oclusão. Treinamos em 5K sequências sintéticas multi-visão do Kubric e avaliamos em dois benchmarks do mundo real: Panoptic Studio e DexYCB, alcançando erros medianos de trajetória de 3,1 cm e 2,0 cm, respectivamente. Nosso método generaliza bem para diversas configurações de câmeras de 1-8 visões com pontos de vista variados e comprimentos de vídeo de 24-150 quadros. Ao liberar nosso rastreador juntamente com conjuntos de dados de treinamento e avaliação, visamos estabelecer um novo padrão para a pesquisa de rastreamento 3D multi-visão e fornecer uma ferramenta prática para aplicações do mundo real. Página do projeto disponível em https://ethz-vlg.github.io/mvtracker.
English
We introduce the first data-driven multi-view 3D point tracker, designed to track arbitrary points in dynamic scenes using multiple camera views. Unlike existing monocular trackers, which struggle with depth ambiguities and occlusion, or prior multi-camera methods that require over 20 cameras and tedious per-sequence optimization, our feed-forward model directly predicts 3D correspondences using a practical number of cameras (e.g., four), enabling robust and accurate online tracking. Given known camera poses and either sensor-based or estimated multi-view depth, our tracker fuses multi-view features into a unified point cloud and applies k-nearest-neighbors correlation alongside a transformer-based update to reliably estimate long-range 3D correspondences, even under occlusion. We train on 5K synthetic multi-view Kubric sequences and evaluate on two real-world benchmarks: Panoptic Studio and DexYCB, achieving median trajectory errors of 3.1 cm and 2.0 cm, respectively. Our method generalizes well to diverse camera setups of 1-8 views with varying vantage points and video lengths of 24-150 frames. By releasing our tracker alongside training and evaluation datasets, we aim to set a new standard for multi-view 3D tracking research and provide a practical tool for real-world applications. Project page available at https://ethz-vlg.github.io/mvtracker.
PDF202August 29, 2025