MeshSplat : Reconstruction de surface à vues éparses généralisable via l'épandage de Gaussiennes

papers.abstract

La reconstruction de surfaces a été largement étudiée en vision par ordinateur et en infographie. Cependant, les travaux existants en reconstruction de surfaces peinent à retrouver une géométrie de scène précise lorsque les vues d'entrée sont extrêmement espacées. Pour résoudre ce problème, nous proposons MeshSplat, un cadre généralisable de reconstruction de surfaces à partir de vues espacées via le Gaussian Splatting. Notre idée clé est d'utiliser le 2DGS comme pont, reliant la synthèse de nouvelles vues à des connaissances géométriques apprises, puis de transférer ces connaissances pour réaliser la reconstruction de surfaces. Plus précisément, nous intégrons un réseau feed-forward pour prédire un 2DGS aligné par pixel pour chaque vue, ce qui permet au réseau de synthétiser des images de nouvelles vues et ainsi élimine le besoin d'une supervision directe par vérité terrain 3D. Pour améliorer la précision de la prédiction de la position et de l'orientation du 2DGS, nous proposons une fonction de perte de distance de Chamfer pondérée pour régulariser les cartes de profondeur, en particulier dans les zones de chevauchement des vues d'entrée, ainsi qu'un réseau de prédiction de normales pour aligner l'orientation du 2DGS avec les vecteurs normaux prédits par un estimateur de normales monoculaire. Des expériences approfondies valident l'efficacité de nos améliorations proposées, démontrant que notre méthode atteint des performances de pointe dans les tâches de reconstruction de maillages généralisables à partir de vues espacées. Page du projet : https://hanzhichang.github.io/meshsplat_web

English

Surface reconstruction has been widely studied in computer vision and graphics. However, existing surface reconstruction works struggle to recover accurate scene geometry when the input views are extremely sparse. To address this issue, we propose MeshSplat, a generalizable sparse-view surface reconstruction framework via Gaussian Splatting. Our key idea is to leverage 2DGS as a bridge, which connects novel view synthesis to learned geometric priors and then transfers these priors to achieve surface reconstruction. Specifically, we incorporate a feed-forward network to predict per-view pixel-aligned 2DGS, which enables the network to synthesize novel view images and thus eliminates the need for direct 3D ground-truth supervision. To improve the accuracy of 2DGS position and orientation prediction, we propose a Weighted Chamfer Distance Loss to regularize the depth maps, especially in overlapping areas of input views, and also a normal prediction network to align the orientation of 2DGS with normal vectors predicted by a monocular normal estimator. Extensive experiments validate the effectiveness of our proposed improvement, demonstrating that our method achieves state-of-the-art performance in generalizable sparse-view mesh reconstruction tasks. Project Page: https://hanzhichang.github.io/meshsplat_web

MeshSplat : Reconstruction de surface à vues éparses généralisable via l'épandage de Gaussiennes

MeshSplat: Generalizable Sparse-View Surface Reconstruction via Gaussian Splatting

papers.abstract

Support