ChatPaper.aiChatPaper

ViSTA-SLAM: SLAM Visivo con Associazione Simmetrica a Due Viste

ViSTA-SLAM: Visual SLAM with Symmetric Two-view Association

September 1, 2025
Autori: Ganlin Zhang, Shenhan Qian, Xi Wang, Daniel Cremers
cs.AI

Abstract

Presentiamo ViSTA-SLAM come un sistema di SLAM visivo monoculare in tempo reale che opera senza richiedere i parametri intrinseci della fotocamera, rendendolo ampiamente applicabile in diverse configurazioni di fotocamere. Al suo interno, il sistema utilizza un modello leggero di associazione simmetrica a due viste (STA) come frontend, che stima simultaneamente le pose relative della fotocamera e regredisce mappe di punti locali partendo da sole due immagini RGB. Questo design riduce significativamente la complessità del modello, con una dimensione del frontend pari solo al 35% rispetto ai metodi all'avanguardia comparabili, migliorando al contempo la qualità dei vincoli a due viste utilizzati nella pipeline. Nel backend, costruiamo un grafo delle pose Sim(3) appositamente progettato che incorpora chiusure di loop per affrontare la deriva accumulata. Esperimenti estensivi dimostrano che il nostro approccio raggiunge prestazioni superiori sia nel tracciamento della fotocamera che nella qualità della ricostruzione 3D densa rispetto ai metodi attuali. Repository Github: https://github.com/zhangganlin/vista-slam
English
We present ViSTA-SLAM as a real-time monocular visual SLAM system that operates without requiring camera intrinsics, making it broadly applicable across diverse camera setups. At its core, the system employs a lightweight symmetric two-view association (STA) model as the frontend, which simultaneously estimates relative camera poses and regresses local pointmaps from only two RGB images. This design reduces model complexity significantly, the size of our frontend is only 35\% that of comparable state-of-the-art methods, while enhancing the quality of two-view constraints used in the pipeline. In the backend, we construct a specially designed Sim(3) pose graph that incorporates loop closures to address accumulated drift. Extensive experiments demonstrate that our approach achieves superior performance in both camera tracking and dense 3D reconstruction quality compared to current methods. Github repository: https://github.com/zhangganlin/vista-slam
PDF71September 3, 2025