ChatPaper.aiChatPaper

ViSTA-SLAM : SLAM visuel avec association symétrique à deux vues

ViSTA-SLAM: Visual SLAM with Symmetric Two-view Association

September 1, 2025
papers.authors: Ganlin Zhang, Shenhan Qian, Xi Wang, Daniel Cremers
cs.AI

papers.abstract

Nous présentons ViSTA-SLAM, un système de SLAM visuel monoculaire en temps réel qui fonctionne sans nécessiter les paramètres intrinsèques de la caméra, le rendant largement applicable à diverses configurations de caméras. Au cœur du système, un modèle léger d'association symétrique à deux vues (STA) est utilisé comme frontend, estimant simultanément les poses relatives de la caméra et régressant des cartes de points locales à partir de seulement deux images RGB. Cette conception réduit significativement la complexité du modèle, la taille de notre frontend étant seulement 35 % de celle des méthodes comparables de pointe, tout en améliorant la qualité des contraintes à deux vues utilisées dans le pipeline. Dans le backend, nous construisons un graphe de poses Sim(3) spécialement conçu, intégrant des fermetures de boucle pour corriger la dérive accumulée. Des expériences approfondies démontrent que notre approche atteint des performances supérieures en termes de suivi de caméra et de qualité de reconstruction 3D dense par rapport aux méthodes actuelles. Dépôt GitHub : https://github.com/zhangganlin/vista-slam.
English
We present ViSTA-SLAM as a real-time monocular visual SLAM system that operates without requiring camera intrinsics, making it broadly applicable across diverse camera setups. At its core, the system employs a lightweight symmetric two-view association (STA) model as the frontend, which simultaneously estimates relative camera poses and regresses local pointmaps from only two RGB images. This design reduces model complexity significantly, the size of our frontend is only 35\% that of comparable state-of-the-art methods, while enhancing the quality of two-view constraints used in the pipeline. In the backend, we construct a specially designed Sim(3) pose graph that incorporates loop closures to address accumulated drift. Extensive experiments demonstrate that our approach achieves superior performance in both camera tracking and dense 3D reconstruction quality compared to current methods. Github repository: https://github.com/zhangganlin/vista-slam
PDF51September 3, 2025