ViSTA-SLAM: Visuele SLAM met Symmetrische Twee-beeld Associatie
ViSTA-SLAM: Visual SLAM with Symmetric Two-view Association
September 1, 2025
Auteurs: Ganlin Zhang, Shenhan Qian, Xi Wang, Daniel Cremers
cs.AI
Samenvatting
We presenteren ViSTA-SLAM als een real-time monocular visueel SLAM-systeem dat
werkt zonder cameraintrinsieken te vereisen, waardoor het breed toepasbaar is
in diverse camera-opstellingen. De kern van het systeem bestaat uit een lichtgewicht
symmetrisch two-view associatie (STA) model als frontend, dat
gelijktijdig relatieve cameraposes schat en lokale puntkaarten regresseert
op basis van slechts twee RGB-beelden. Dit ontwerp vermindert de modelcomplexiteit aanzienlijk,
de grootte van onze frontend is slechts 35\% van die van vergelijkbare state-of-the-art
methoden, terwijl de kwaliteit van de two-view beperkingen die in de pijplijn worden gebruikt, wordt verbeterd. In de backend construeren we een speciaal ontworpen Sim(3) pose-grafiek
die loop closures integreert om opgebouwde drift aan te pakken. Uitgebreide
experimenten tonen aan dat onze aanpak superieure prestaties levert op het gebied van zowel
cameratracking als de kwaliteit van dichte 3D-reconstructie in vergelijking met huidige
methoden. Github repository: https://github.com/zhangganlin/vista-slam
English
We present ViSTA-SLAM as a real-time monocular visual SLAM system that
operates without requiring camera intrinsics, making it broadly applicable
across diverse camera setups. At its core, the system employs a lightweight
symmetric two-view association (STA) model as the frontend, which
simultaneously estimates relative camera poses and regresses local pointmaps
from only two RGB images. This design reduces model complexity significantly,
the size of our frontend is only 35\% that of comparable state-of-the-art
methods, while enhancing the quality of two-view constraints used in the
pipeline. In the backend, we construct a specially designed Sim(3) pose graph
that incorporates loop closures to address accumulated drift. Extensive
experiments demonstrate that our approach achieves superior performance in both
camera tracking and dense 3D reconstruction quality compared to current
methods. Github repository: https://github.com/zhangganlin/vista-slam