ViSTA-SLAM: SLAM Visual con Asociación Simétrica de Dos Vistas
ViSTA-SLAM: Visual SLAM with Symmetric Two-view Association
September 1, 2025
Autores: Ganlin Zhang, Shenhan Qian, Xi Wang, Daniel Cremers
cs.AI
Resumen
Presentamos ViSTA-SLAM como un sistema de SLAM visual monocular en tiempo real que opera sin requerir parámetros intrínsecos de la cámara, lo que lo hace ampliamente aplicable en diversas configuraciones de cámaras. En su núcleo, el sistema emplea un modelo ligero de asociación simétrica de dos vistas (STA) como frontend, que estima simultáneamente las poses relativas de la cámara y regresa mapas de puntos locales a partir de solo dos imágenes RGB. Este diseño reduce significativamente la complejidad del modelo, ya que el tamaño de nuestro frontend es solo el 35% del de métodos comparables de vanguardia, mientras mejora la calidad de las restricciones de dos vistas utilizadas en la pipeline. En el backend, construimos un grafo de poses Sim(3) especialmente diseñado que incorpora cierres de bucle para abordar el desvío acumulado. Experimentos exhaustivos demuestran que nuestro enfoque logra un rendimiento superior tanto en el seguimiento de la cámara como en la calidad de la reconstrucción 3D densa en comparación con los métodos actuales. Repositorio de Github: https://github.com/zhangganlin/vista-slam.
English
We present ViSTA-SLAM as a real-time monocular visual SLAM system that
operates without requiring camera intrinsics, making it broadly applicable
across diverse camera setups. At its core, the system employs a lightweight
symmetric two-view association (STA) model as the frontend, which
simultaneously estimates relative camera poses and regresses local pointmaps
from only two RGB images. This design reduces model complexity significantly,
the size of our frontend is only 35\% that of comparable state-of-the-art
methods, while enhancing the quality of two-view constraints used in the
pipeline. In the backend, we construct a specially designed Sim(3) pose graph
that incorporates loop closures to address accumulated drift. Extensive
experiments demonstrate that our approach achieves superior performance in both
camera tracking and dense 3D reconstruction quality compared to current
methods. Github repository: https://github.com/zhangganlin/vista-slam