M^3: Correspondência Densa Encontra Modelos de Base Multi-Vista para SLAM com Splatting Gaussiano Monocular
M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM
March 17, 2026
Autores: Kerui Ren, Guanghao Li, Changjian Jiang, Yingxiang Xu, Tao Lu, Linning Xu, Junting Dong, Jiangmiao Pang, Mulin Yu, Bo Dai
cs.AI
Resumo
A reconstrução em tempo real a partir de vídeo monocular não calibrado continua a ser um desafio, pois requer uma estimativa de pose de alta precisão e um refinamento online computacionalmente eficiente em ambientes dinâmicos. Embora o acoplamento de modelos de base 3D com estruturas SLAM seja um paradigma promissor, um estrangulamento crítico persiste: a maioria dos modelos de base multivisa estima poses de forma direta (feed-forward), produzindo correspondências ao nível do pixel que carecem da precisão necessária para uma otimização geométrica rigorosa. Para resolver isto, apresentamos o M³, que aumenta o modelo de base Multivisa com um cabeçalho de Correspondência dedicado para facilitar correspondências densas de granularidade fina e o integra num sistema SLAM robusto baseado em Monocular Gaussian Splatting. O M³ melhora ainda mais a estabilidade do rastreamento através da incorporação de supressão de área dinâmica e alinhamento intrínseco por inferência cruzada. Experiências extensas em vários benchmarks de interiores e exteriores demonstram uma precisão de ponta tanto na estimativa de pose como na reconstrução da cena. Notavelmente, o M³ reduz o RMSE do ATE em 64,3% em comparação com o VGGT-SLAM 2.0 e supera o ARTDECO em 2,11 dB no PSNR no conjunto de dados ScanNet++.
English
Streaming reconstruction from uncalibrated monocular video remains challenging, as it requires both high-precision pose estimation and computationally efficient online refinement in dynamic environments. While coupling 3D foundation models with SLAM frameworks is a promising paradigm, a critical bottleneck persists: most multi-view foundation models estimate poses in a feed-forward manner, yielding pixel-level correspondences that lack the requisite precision for rigorous geometric optimization. To address this, we present M^3, which augments the Multi-view foundation model with a dedicated Matching head to facilitate fine-grained dense correspondences and integrates it into a robust Monocular Gaussian Splatting SLAM. M^3 further enhances tracking stability by incorporating dynamic area suppression and cross-inference intrinsic alignment. Extensive experiments on diverse indoor and outdoor benchmarks demonstrate state-of-the-art accuracy in both pose estimation and scene reconstruction. Notably, M^3 reduces ATE RMSE by 64.3% compared to VGGT-SLAM 2.0 and outperforms ARTDECO by 2.11 dB in PSNR on the ScanNet++ dataset.