ViSTA-SLAM: Visuelle SLAM mit symmetrischer Zwei-Bild-Assoziation
ViSTA-SLAM: Visual SLAM with Symmetric Two-view Association
September 1, 2025
papers.authors: Ganlin Zhang, Shenhan Qian, Xi Wang, Daniel Cremers
cs.AI
papers.abstract
Wir präsentieren ViSTA-SLAM als ein Echtzeit-monokulares visuelles SLAM-System, das ohne die Notwendigkeit von Kameraintrinsiken arbeitet und somit breit anwendbar für verschiedene Kamerakonfigurationen ist. Im Kern des Systems wird ein leichtgewichtiges symmetrisches Zwei-Bild-Assoziationsmodell (STA) als Frontend eingesetzt, das gleichzeitig relative Kameraposen schätzt und lokale Punktkarten aus nur zwei RGB-Bildern regressiert. Dieser Entwurf reduziert die Modellkomplexität erheblich, wobei die Größe unseres Frontends nur 35 % der vergleichbaren state-of-the-art Methoden beträgt, während gleichzeitig die Qualität der in der Pipeline verwendeten Zwei-Bild-Constraints verbessert wird. Im Backend konstruieren wir einen speziell entworfenen Sim(3)-Pose-Graphen, der Schleifenschlüsse integriert, um akkumulierten Drift zu adressieren. Umfangreiche Experimente zeigen, dass unser Ansatz sowohl in der Kameranachverfolgung als auch in der Qualität der dichten 3D-Rekonstruktion im Vergleich zu aktuellen Methoden überlegene Leistung erzielt. Github-Repository: https://github.com/zhangganlin/vista-slam
English
We present ViSTA-SLAM as a real-time monocular visual SLAM system that
operates without requiring camera intrinsics, making it broadly applicable
across diverse camera setups. At its core, the system employs a lightweight
symmetric two-view association (STA) model as the frontend, which
simultaneously estimates relative camera poses and regresses local pointmaps
from only two RGB images. This design reduces model complexity significantly,
the size of our frontend is only 35\% that of comparable state-of-the-art
methods, while enhancing the quality of two-view constraints used in the
pipeline. In the backend, we construct a specially designed Sim(3) pose graph
that incorporates loop closures to address accumulated drift. Extensive
experiments demonstrate that our approach achieves superior performance in both
camera tracking and dense 3D reconstruction quality compared to current
methods. Github repository: https://github.com/zhangganlin/vista-slam