ViSTA-SLAM: SLAM Visual com Associação Simétrica de Duas Visões
ViSTA-SLAM: Visual SLAM with Symmetric Two-view Association
September 1, 2025
Autores: Ganlin Zhang, Shenhan Qian, Xi Wang, Daniel Cremers
cs.AI
Resumo
Apresentamos o ViSTA-SLAM como um sistema de SLAM visual monocular em tempo real que opera sem a necessidade de intrínsecos da câmera, tornando-o amplamente aplicável em diversas configurações de câmera. No núcleo do sistema, é empregado um modelo leve de associação simétrica de duas vistas (STA) como frontend, que estima simultaneamente as poses relativas da câmera e regressa mapas de pontos locais a partir de apenas duas imagens RGB. Esse design reduz significativamente a complexidade do modelo, com o tamanho do nosso frontend sendo apenas 35% dos métodos state-of-the-art comparáveis, ao mesmo tempo em que melhora a qualidade das restrições de duas vistas utilizadas no pipeline. No backend, construímos um grafo de poses Sim(3) especialmente projetado que incorpora fechamentos de loop para lidar com o desvio acumulado. Experimentos extensivos demonstram que nossa abordagem alcança desempenho superior tanto no rastreamento da câmera quanto na qualidade de reconstrução 3D densa em comparação com os métodos atuais. Repositório Github: https://github.com/zhangganlin/vista-slam
English
We present ViSTA-SLAM as a real-time monocular visual SLAM system that
operates without requiring camera intrinsics, making it broadly applicable
across diverse camera setups. At its core, the system employs a lightweight
symmetric two-view association (STA) model as the frontend, which
simultaneously estimates relative camera poses and regresses local pointmaps
from only two RGB images. This design reduces model complexity significantly,
the size of our frontend is only 35\% that of comparable state-of-the-art
methods, while enhancing the quality of two-view constraints used in the
pipeline. In the backend, we construct a specially designed Sim(3) pose graph
that incorporates loop closures to address accumulated drift. Extensive
experiments demonstrate that our approach achieves superior performance in both
camera tracking and dense 3D reconstruction quality compared to current
methods. Github repository: https://github.com/zhangganlin/vista-slam