ChatPaper.aiChatPaper

M^3 : L'appariement dense rencontre les modèles de fondation multi-vues pour le SLAM par projection de Gaussiennes monoculaire

M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM

March 17, 2026
Auteurs: Kerui Ren, Guanghao Li, Changjian Jiang, Yingxiang Xu, Tao Lu, Linning Xu, Junting Dong, Jiangmiao Pang, Mulin Yu, Bo Dai
cs.AI

Résumé

La reconstruction en flux à partir de vidéos monoculaires non étalonnées reste un défi, car elle nécessite à la fois une estimation de pose de haute précision et un raffinement en ligne efficace en termes de calcul dans des environnements dynamiques. Bien que le couplage de modèles de fondation 3D avec des frameworks SLAM soit un paradigme prometteur, un goulot d'étranglement critique persiste : la plupart des modèles de fondation multi-vues estiment les poses de manière séquentielle (feed-forward), produisant des correspondances au niveau pixel qui manquent de la précision requise pour une optimisation géométrique rigoureuse. Pour résoudre ce problème, nous présentons M³, qui augmente le modèle de fondation Multi-vues avec une tête de Matching dédiée pour faciliter les correspondances denses à grain fin et l'intègre dans un système SLAM robuste basé sur Monocular Gaussian Splatting. M³ améliore en outre la stabilité du suivi en incorporant une suppression des zones dynamiques et un alignement des paramètres intrinsèques par inférence croisée (cross-inference). Des expériences approfondies sur divers benchmarks intérieurs et extérieurs démontrent une précision de pointe à la fois dans l'estimation de pose et la reconstruction de scène. Notamment, M³ réduit l'erreur quadratique moyenne de l'ATE de 64,3 % par rapport à VGGT-SLAM 2.0 et surpasse ARTDECO de 2,11 dB en PSNR sur le jeu de données ScanNet++.
English
Streaming reconstruction from uncalibrated monocular video remains challenging, as it requires both high-precision pose estimation and computationally efficient online refinement in dynamic environments. While coupling 3D foundation models with SLAM frameworks is a promising paradigm, a critical bottleneck persists: most multi-view foundation models estimate poses in a feed-forward manner, yielding pixel-level correspondences that lack the requisite precision for rigorous geometric optimization. To address this, we present M^3, which augments the Multi-view foundation model with a dedicated Matching head to facilitate fine-grained dense correspondences and integrates it into a robust Monocular Gaussian Splatting SLAM. M^3 further enhances tracking stability by incorporating dynamic area suppression and cross-inference intrinsic alignment. Extensive experiments on diverse indoor and outdoor benchmarks demonstrate state-of-the-art accuracy in both pose estimation and scene reconstruction. Notably, M^3 reduces ATE RMSE by 64.3% compared to VGGT-SLAM 2.0 and outperforms ARTDECO by 2.11 dB in PSNR on the ScanNet++ dataset.
PDF92March 19, 2026