M^3 : L'appariement dense rencontre les modèles de fondation multi-vues pour le SLAM par projection de Gaussiennes monoculaire

Résumé

La reconstruction en flux à partir de vidéos monoculaires non étalonnées reste un défi, car elle nécessite à la fois une estimation de pose de haute précision et un raffinement en ligne efficace en termes de calcul dans des environnements dynamiques. Bien que le couplage de modèles de fondation 3D avec des frameworks SLAM soit un paradigme prometteur, un goulot d'étranglement critique persiste : la plupart des modèles de fondation multi-vues estiment les poses de manière séquentielle (feed-forward), produisant des correspondances au niveau pixel qui manquent de la précision requise pour une optimisation géométrique rigoureuse. Pour résoudre ce problème, nous présentons M³, qui augmente le modèle de fondation Multi-vues avec une tête de Matching dédiée pour faciliter les correspondances denses à grain fin et l'intègre dans un système SLAM robuste basé sur Monocular Gaussian Splatting. M³ améliore en outre la stabilité du suivi en incorporant une suppression des zones dynamiques et un alignement des paramètres intrinsèques par inférence croisée (cross-inference). Des expériences approfondies sur divers benchmarks intérieurs et extérieurs démontrent une précision de pointe à la fois dans l'estimation de pose et la reconstruction de scène. Notamment, M³ réduit l'erreur quadratique moyenne de l'ATE de 64,3 % par rapport à VGGT-SLAM 2.0 et surpasse ARTDECO de 2,11 dB en PSNR sur le jeu de données ScanNet++.

English

Streaming reconstruction from uncalibrated monocular video remains challenging, as it requires both high-precision pose estimation and computationally efficient online refinement in dynamic environments. While coupling 3D foundation models with SLAM frameworks is a promising paradigm, a critical bottleneck persists: most multi-view foundation models estimate poses in a feed-forward manner, yielding pixel-level correspondences that lack the requisite precision for rigorous geometric optimization. To address this, we present M^3, which augments the Multi-view foundation model with a dedicated Matching head to facilitate fine-grained dense correspondences and integrates it into a robust Monocular Gaussian Splatting SLAM. M^3 further enhances tracking stability by incorporating dynamic area suppression and cross-inference intrinsic alignment. Extensive experiments on diverse indoor and outdoor benchmarks demonstrate state-of-the-art accuracy in both pose estimation and scene reconstruction. Notably, M^3 reduces ATE RMSE by 64.3% compared to VGGT-SLAM 2.0 and outperforms ARTDECO by 2.11 dB in PSNR on the ScanNet++ dataset.

M^3 : L'appariement dense rencontre les modèles de fondation multi-vues pour le SLAM par projection de Gaussiennes monoculaire

M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM

Résumé

Support