MeshSplat: Ricostruzione di Superfici con Viste Sparse Generalizzabile tramite Splatting Gaussiano

Abstract

La ricostruzione di superfici è stata ampiamente studiata nel campo della visione artificiale e della grafica. Tuttavia, i lavori esistenti sulla ricostruzione di superfici faticano a recuperare una geometria accurata della scena quando le viste di input sono estremamente sparse. Per affrontare questo problema, proponiamo MeshSplat, un framework generalizzabile per la ricostruzione di superfici con viste sparse tramite Gaussian Splatting. La nostra idea chiave è sfruttare 2DGS come ponte, che collega la sintesi di nuove viste a priori geometrici appresi e poi trasferisce questi priori per ottenere la ricostruzione della superficie. Nello specifico, incorporiamo una rete feed-forward per prevedere 2DGS allineati ai pixel per ogni vista, il che consente alla rete di sintetizzare immagini di nuove viste e quindi elimina la necessità di una supervisione diretta con ground-truth 3D. Per migliorare l'accuratezza della previsione della posizione e dell'orientamento di 2DGS, proponiamo una perdita di distanza di Chamfer ponderata per regolarizzare le mappe di profondità, specialmente nelle aree sovrapposte delle viste di input, e anche una rete di previsione delle normali per allineare l'orientamento di 2DGS con i vettori normali previsti da un estimatore di normali monoculare. Estesi esperimenti convalidano l'efficacia dei nostri miglioramenti proposti, dimostrando che il nostro metodo raggiunge prestazioni all'avanguardia nei compiti di ricostruzione di mesh generalizzabili con viste sparse. Pagina del progetto: https://hanzhichang.github.io/meshsplat_web

English

Surface reconstruction has been widely studied in computer vision and graphics. However, existing surface reconstruction works struggle to recover accurate scene geometry when the input views are extremely sparse. To address this issue, we propose MeshSplat, a generalizable sparse-view surface reconstruction framework via Gaussian Splatting. Our key idea is to leverage 2DGS as a bridge, which connects novel view synthesis to learned geometric priors and then transfers these priors to achieve surface reconstruction. Specifically, we incorporate a feed-forward network to predict per-view pixel-aligned 2DGS, which enables the network to synthesize novel view images and thus eliminates the need for direct 3D ground-truth supervision. To improve the accuracy of 2DGS position and orientation prediction, we propose a Weighted Chamfer Distance Loss to regularize the depth maps, especially in overlapping areas of input views, and also a normal prediction network to align the orientation of 2DGS with normal vectors predicted by a monocular normal estimator. Extensive experiments validate the effectiveness of our proposed improvement, demonstrating that our method achieves state-of-the-art performance in generalizable sparse-view mesh reconstruction tasks. Project Page: https://hanzhichang.github.io/meshsplat_web

MeshSplat: Ricostruzione di Superfici con Viste Sparse Generalizzabile tramite Splatting Gaussiano

MeshSplat: Generalizable Sparse-View Surface Reconstruction via Gaussian Splatting

Abstract

Support