ChatPaper.aiChatPaper

ViSTA-SLAM: SLAM Visual con Asociación Simétrica de Dos Vistas

ViSTA-SLAM: Visual SLAM with Symmetric Two-view Association

September 1, 2025
Autores: Ganlin Zhang, Shenhan Qian, Xi Wang, Daniel Cremers
cs.AI

Resumen

Presentamos ViSTA-SLAM como un sistema de SLAM visual monocular en tiempo real que opera sin requerir parámetros intrínsecos de la cámara, lo que lo hace ampliamente aplicable en diversas configuraciones de cámaras. En su núcleo, el sistema emplea un modelo ligero de asociación simétrica de dos vistas (STA) como frontend, que estima simultáneamente las poses relativas de la cámara y regresa mapas de puntos locales a partir de solo dos imágenes RGB. Este diseño reduce significativamente la complejidad del modelo, ya que el tamaño de nuestro frontend es solo el 35% del de métodos comparables de vanguardia, mientras mejora la calidad de las restricciones de dos vistas utilizadas en la pipeline. En el backend, construimos un grafo de poses Sim(3) especialmente diseñado que incorpora cierres de bucle para abordar el desvío acumulado. Experimentos exhaustivos demuestran que nuestro enfoque logra un rendimiento superior tanto en el seguimiento de la cámara como en la calidad de la reconstrucción 3D densa en comparación con los métodos actuales. Repositorio de Github: https://github.com/zhangganlin/vista-slam.
English
We present ViSTA-SLAM as a real-time monocular visual SLAM system that operates without requiring camera intrinsics, making it broadly applicable across diverse camera setups. At its core, the system employs a lightweight symmetric two-view association (STA) model as the frontend, which simultaneously estimates relative camera poses and regresses local pointmaps from only two RGB images. This design reduces model complexity significantly, the size of our frontend is only 35\% that of comparable state-of-the-art methods, while enhancing the quality of two-view constraints used in the pipeline. In the backend, we construct a specially designed Sim(3) pose graph that incorporates loop closures to address accumulated drift. Extensive experiments demonstrate that our approach achieves superior performance in both camera tracking and dense 3D reconstruction quality compared to current methods. Github repository: https://github.com/zhangganlin/vista-slam
PDF51September 3, 2025