ChatPaper.aiChatPaper

ViSTA-SLAM: Visuelle SLAM mit symmetrischer Zwei-Bild-Assoziation

ViSTA-SLAM: Visual SLAM with Symmetric Two-view Association

September 1, 2025
papers.authors: Ganlin Zhang, Shenhan Qian, Xi Wang, Daniel Cremers
cs.AI

papers.abstract

Wir präsentieren ViSTA-SLAM als ein Echtzeit-monokulares visuelles SLAM-System, das ohne die Notwendigkeit von Kameraintrinsiken arbeitet und somit breit anwendbar für verschiedene Kamerakonfigurationen ist. Im Kern des Systems wird ein leichtgewichtiges symmetrisches Zwei-Bild-Assoziationsmodell (STA) als Frontend eingesetzt, das gleichzeitig relative Kameraposen schätzt und lokale Punktkarten aus nur zwei RGB-Bildern regressiert. Dieser Entwurf reduziert die Modellkomplexität erheblich, wobei die Größe unseres Frontends nur 35 % der vergleichbaren state-of-the-art Methoden beträgt, während gleichzeitig die Qualität der in der Pipeline verwendeten Zwei-Bild-Constraints verbessert wird. Im Backend konstruieren wir einen speziell entworfenen Sim(3)-Pose-Graphen, der Schleifenschlüsse integriert, um akkumulierten Drift zu adressieren. Umfangreiche Experimente zeigen, dass unser Ansatz sowohl in der Kameranachverfolgung als auch in der Qualität der dichten 3D-Rekonstruktion im Vergleich zu aktuellen Methoden überlegene Leistung erzielt. Github-Repository: https://github.com/zhangganlin/vista-slam
English
We present ViSTA-SLAM as a real-time monocular visual SLAM system that operates without requiring camera intrinsics, making it broadly applicable across diverse camera setups. At its core, the system employs a lightweight symmetric two-view association (STA) model as the frontend, which simultaneously estimates relative camera poses and regresses local pointmaps from only two RGB images. This design reduces model complexity significantly, the size of our frontend is only 35\% that of comparable state-of-the-art methods, while enhancing the quality of two-view constraints used in the pipeline. In the backend, we construct a specially designed Sim(3) pose graph that incorporates loop closures to address accumulated drift. Extensive experiments demonstrate that our approach achieves superior performance in both camera tracking and dense 3D reconstruction quality compared to current methods. Github repository: https://github.com/zhangganlin/vista-slam
PDF51September 3, 2025