ViSTA-SLAM: Визуальный SLAM с симметричной двухракурсной ассоциацией
ViSTA-SLAM: Visual SLAM with Symmetric Two-view Association
September 1, 2025
Авторы: Ganlin Zhang, Shenhan Qian, Xi Wang, Daniel Cremers
cs.AI
Аннотация
Мы представляем ViSTA-SLAM как систему монокулярного визуального SLAM, работающую в реальном времени, которая функционирует без необходимости знания внутренних параметров камеры, что делает её применимой в разнообразных конфигурациях камер. В основе системы используется легковесная симметричная модель ассоциации двух видов (STA) в качестве фронтенда, которая одновременно оценивает относительные положения камеры и восстанавливает локальные карты точек всего по двум RGB-изображениям. Такой подход значительно снижает сложность модели — размер нашего фронтенда составляет всего 35% от размера современных методов, при этом повышая качество двухвидовых ограничений, используемых в конвейере. В бэкенде мы строим специально разработанный граф поз Sim(3), который включает замыкания петель для устранения накопленного дрейфа. Многочисленные эксперименты демонстрируют, что наш подход превосходит современные методы как по точности отслеживания камеры, так и по качеству плотной 3D-реконструкции. Репозиторий на Github: https://github.com/zhangganlin/vista-slam.
English
We present ViSTA-SLAM as a real-time monocular visual SLAM system that
operates without requiring camera intrinsics, making it broadly applicable
across diverse camera setups. At its core, the system employs a lightweight
symmetric two-view association (STA) model as the frontend, which
simultaneously estimates relative camera poses and regresses local pointmaps
from only two RGB images. This design reduces model complexity significantly,
the size of our frontend is only 35\% that of comparable state-of-the-art
methods, while enhancing the quality of two-view constraints used in the
pipeline. In the backend, we construct a specially designed Sim(3) pose graph
that incorporates loop closures to address accumulated drift. Extensive
experiments demonstrate that our approach achieves superior performance in both
camera tracking and dense 3D reconstruction quality compared to current
methods. Github repository: https://github.com/zhangganlin/vista-slam