VolSplat: Een nieuwe kijk op feed-forward 3D Gaussian Splatting met voxel-uitgelijnde voorspelling
VolSplat: Rethinking Feed-Forward 3D Gaussian Splatting with Voxel-Aligned Prediction
September 23, 2025
Auteurs: Weijie Wang, Yeqing Chen, Zeyu Zhang, Hengyu Liu, Haoxiao Wang, Zhiyuan Feng, Wenkang Qin, Zheng Zhu, Donny Y. Chen, Bohan Zhuang
cs.AI
Samenvatting
Feed-forward 3D Gaussian Splatting (3DGS) is naar voren gekomen als een zeer effectieve oplossing voor de synthese van nieuwe gezichtspunten. Bestaande methoden zijn voornamelijk gebaseerd op een pixel-uitgelijnd Gaussisch voorspellingsparadigma, waarbij elke 2D-pixel wordt toegewezen aan een 3D Gaussische verdeling. Wij heroverwegen dit veelgebruikte formulering en identificeren verschillende inherente beperkingen: het maakt de gereconstrueerde 3D-modellen sterk afhankelijk van het aantal invoerbeelden, leidt tot gezichtspunt-gebiasde dichtheidsverdelingen en introduceert uitlijningsfouten, vooral wanneer bronbeelden occlusies of weinig textuur bevatten. Om deze uitdagingen aan te pakken, introduceren wij VolSplat, een nieuw multi-view feed-forward paradigma dat pixel-uitlijning vervangt door voxel-uitgelijnde Gaussische verdelingen. Door Gaussische verdelingen rechtstreeks te voorspellen vanuit een voorspelde 3D voxelgrid, overkomt het de afhankelijkheid van pixel-uitlijning op foutgevoelige 2D kenmerkovereenkomsten, wat zorgt voor robuuste multi-view consistentie. Bovendien maakt het adaptieve controle mogelijk over de Gaussische dichtheid op basis van de complexiteit van de 3D-scène, wat resulteert in nauwkeurigere Gaussische puntenwolken, verbeterde geometrische consistentie en een betere kwaliteit van de synthese van nieuwe gezichtspunten. Experimenten op veelgebruikte benchmarks zoals RealEstate10K en ScanNet tonen aan dat VolSplat state-of-the-art prestaties bereikt terwijl het plausibelere en gezichtspunt-consistente Gaussische reconstructies produceert. Naast superieure resultaten, biedt onze aanpak een schaalbaarder raamwerk voor feed-forward 3D-reconstructie met dichtere en robuustere representaties, wat de weg vrijmaakt voor verder onderzoek in bredere gemeenschappen. De videoresultaten, code en getrainde modellen zijn beschikbaar op onze projectpagina: https://lhmd.top/volsplat.
English
Feed-forward 3D Gaussian Splatting (3DGS) has emerged as a highly effective
solution for novel view synthesis. Existing methods predominantly rely on a
pixel-aligned Gaussian prediction paradigm, where each 2D pixel is mapped to a
3D Gaussian. We rethink this widely adopted formulation and identify several
inherent limitations: it renders the reconstructed 3D models heavily dependent
on the number of input views, leads to view-biased density distributions, and
introduces alignment errors, particularly when source views contain occlusions
or low texture. To address these challenges, we introduce VolSplat, a new
multi-view feed-forward paradigm that replaces pixel alignment with
voxel-aligned Gaussians. By directly predicting Gaussians from a predicted 3D
voxel grid, it overcomes pixel alignment's reliance on error-prone 2D feature
matching, ensuring robust multi-view consistency. Furthermore, it enables
adaptive control over Gaussian density based on 3D scene complexity, yielding
more faithful Gaussian point clouds, improved geometric consistency, and
enhanced novel-view rendering quality. Experiments on widely used benchmarks
including RealEstate10K and ScanNet demonstrate that VolSplat achieves
state-of-the-art performance while producing more plausible and view-consistent
Gaussian reconstructions. In addition to superior results, our approach
establishes a more scalable framework for feed-forward 3D reconstruction with
denser and more robust representations, paving the way for further research in
wider communities. The video results, code and trained models are available on
our project page: https://lhmd.top/volsplat.