ChatPaper.aiChatPaper

ViSTA-SLAM: SLAM Visual com Associação Simétrica de Duas Visões

ViSTA-SLAM: Visual SLAM with Symmetric Two-view Association

September 1, 2025
Autores: Ganlin Zhang, Shenhan Qian, Xi Wang, Daniel Cremers
cs.AI

Resumo

Apresentamos o ViSTA-SLAM como um sistema de SLAM visual monocular em tempo real que opera sem a necessidade de intrínsecos da câmera, tornando-o amplamente aplicável em diversas configurações de câmera. No núcleo do sistema, é empregado um modelo leve de associação simétrica de duas vistas (STA) como frontend, que estima simultaneamente as poses relativas da câmera e regressa mapas de pontos locais a partir de apenas duas imagens RGB. Esse design reduz significativamente a complexidade do modelo, com o tamanho do nosso frontend sendo apenas 35% dos métodos state-of-the-art comparáveis, ao mesmo tempo em que melhora a qualidade das restrições de duas vistas utilizadas no pipeline. No backend, construímos um grafo de poses Sim(3) especialmente projetado que incorpora fechamentos de loop para lidar com o desvio acumulado. Experimentos extensivos demonstram que nossa abordagem alcança desempenho superior tanto no rastreamento da câmera quanto na qualidade de reconstrução 3D densa em comparação com os métodos atuais. Repositório Github: https://github.com/zhangganlin/vista-slam
English
We present ViSTA-SLAM as a real-time monocular visual SLAM system that operates without requiring camera intrinsics, making it broadly applicable across diverse camera setups. At its core, the system employs a lightweight symmetric two-view association (STA) model as the frontend, which simultaneously estimates relative camera poses and regresses local pointmaps from only two RGB images. This design reduces model complexity significantly, the size of our frontend is only 35\% that of comparable state-of-the-art methods, while enhancing the quality of two-view constraints used in the pipeline. In the backend, we construct a specially designed Sim(3) pose graph that incorporates loop closures to address accumulated drift. Extensive experiments demonstrate that our approach achieves superior performance in both camera tracking and dense 3D reconstruction quality compared to current methods. Github repository: https://github.com/zhangganlin/vista-slam
PDF61September 3, 2025