M^3: Методы плотного сопоставления в сочетании с многовидовыми базовыми моделями для моноскопического SLAM на основе гауссовых сплайнов
M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM
March 17, 2026
Авторы: Kerui Ren, Guanghao Li, Changjian Jiang, Yingxiang Xu, Tao Lu, Linning Xu, Junting Dong, Jiangmiao Pang, Mulin Yu, Bo Dai
cs.AI
Аннотация
Потоковая реконструкция по неоткалиброванному монокулярному видео остается сложной задачей, поскольку требует как высокоточной оценки позы, так и вычислительно эффективного онлайн-уточнения в динамических средах. Хотя объединение 3D-фундаментальных моделей с фреймворками SLAM является многообещающей парадигмой, сохраняется ключевое ограничение: большинство многовидовых фундаментальных моделей оценивают позы прямым проходом, выдавая соответствия на уровне пикселей, которые не обладают необходимой точностью для строгой геометрической оптимизации. Для решения этой проблемы мы представляем M^3, который расширяет многовидовую фундаментальную модель специальным модулом сопоставления (Matching head) для получения мелкозернистых плотных соответствий и интегрирует ее в надежный монокулярный SLAM на основе гауссовских сплатов (Monocular Gaussian Splatting SLAM). M^3 дополнительно повышает стабильность отслеживания за счет включения подавления динамических областей и перекрестного вывода для выравнивания внутренних параметров. Обширные эксперименты на различных эталонных наборах данных для помещений и улиц демонстрируют передовую точность как в оценке позы, так и в реконструкции сцены. Примечательно, что M^3 снижает среднеквадратичную ошибку абсолютной траектории (ATE RMSE) на 64,3% по сравнению с VGGT-SLAM 2.0 и превосходит ARTDECO на 2,11 дБ по PSNR на наборе данных ScanNet++.
English
Streaming reconstruction from uncalibrated monocular video remains challenging, as it requires both high-precision pose estimation and computationally efficient online refinement in dynamic environments. While coupling 3D foundation models with SLAM frameworks is a promising paradigm, a critical bottleneck persists: most multi-view foundation models estimate poses in a feed-forward manner, yielding pixel-level correspondences that lack the requisite precision for rigorous geometric optimization. To address this, we present M^3, which augments the Multi-view foundation model with a dedicated Matching head to facilitate fine-grained dense correspondences and integrates it into a robust Monocular Gaussian Splatting SLAM. M^3 further enhances tracking stability by incorporating dynamic area suppression and cross-inference intrinsic alignment. Extensive experiments on diverse indoor and outdoor benchmarks demonstrate state-of-the-art accuracy in both pose estimation and scene reconstruction. Notably, M^3 reduces ATE RMSE by 64.3% compared to VGGT-SLAM 2.0 and outperforms ARTDECO by 2.11 dB in PSNR on the ScanNet++ dataset.