M^3: L'Abbinamento Denso Incontra i Modelli Fondazionali Multi-View per lo SLAM Monoculare con Gaussian Splatting
M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM
March 17, 2026
Autori: Kerui Ren, Guanghao Li, Changjian Jiang, Yingxiang Xu, Tao Lu, Linning Xu, Junting Dong, Jiangmiao Pang, Mulin Yu, Bo Dai
cs.AI
Abstract
La ricostruzione in streaming da video monoculare non calibrato rimane una sfida, poiché richiede sia una stima della posa ad alta precisione che un raffinamento online computazionalmente efficiente in ambienti dinamici. Sebbene l'integrazione di modelli di fondazione 3D con framework SLAM rappresenti un paradigma promettente, persiste un collo di bottiglia critico: la maggior parte dei modelli di fondazione multi-vista stima le pose in modo feed-forward, producendo corrispondenze a livello di pixel che mancano della precisione necessaria per un'ottimizzazione geometrica rigorosa. Per affrontare questo problema, presentiamo M^3, che potenzia il modello di fondazione Multi-vista con una testa di Matching dedicata per facilitare corrispondenze dense granulari e lo integra in un robusto SLAM basato su Gaussian Splatting monoculare. M^3 migliora ulteriormente la stabilità del tracking incorporando la soppressione dinamica delle aree e l'allineamento intrinseco cross-inference. Esperimenti estesi su vari benchmark indoor e outdoor dimostrano un'accuratezza allo stato dell'arte sia nella stima della posa che nella ricostruzione della scena. In particolare, M^3 riduce l'RMSE dell'ATE del 64,3% rispetto a VGGT-SLAM 2.0 e supera ARTDECO di 2,11 dB in PSNR sul dataset ScanNet++.
English
Streaming reconstruction from uncalibrated monocular video remains challenging, as it requires both high-precision pose estimation and computationally efficient online refinement in dynamic environments. While coupling 3D foundation models with SLAM frameworks is a promising paradigm, a critical bottleneck persists: most multi-view foundation models estimate poses in a feed-forward manner, yielding pixel-level correspondences that lack the requisite precision for rigorous geometric optimization. To address this, we present M^3, which augments the Multi-view foundation model with a dedicated Matching head to facilitate fine-grained dense correspondences and integrates it into a robust Monocular Gaussian Splatting SLAM. M^3 further enhances tracking stability by incorporating dynamic area suppression and cross-inference intrinsic alignment. Extensive experiments on diverse indoor and outdoor benchmarks demonstrate state-of-the-art accuracy in both pose estimation and scene reconstruction. Notably, M^3 reduces ATE RMSE by 64.3% compared to VGGT-SLAM 2.0 and outperforms ARTDECO by 2.11 dB in PSNR on the ScanNet++ dataset.