VolSplat: Neubetrachtung des Feed-Forward-3D-Gaussian-Splatting mit voxelausgerichteter Vorhersage
VolSplat: Rethinking Feed-Forward 3D Gaussian Splatting with Voxel-Aligned Prediction
September 23, 2025
papers.authors: Weijie Wang, Yeqing Chen, Zeyu Zhang, Hengyu Liu, Haoxiao Wang, Zhiyuan Feng, Wenkang Qin, Zheng Zhu, Donny Y. Chen, Bohan Zhuang
cs.AI
papers.abstract
Feed-forward 3D Gaussian Splatting (3DGS) hat sich als äußerst effektive Lösung für die Synthese neuer Ansichten etabliert. Bestehende Methoden stützen sich hauptsächlich auf ein pixelausgerichtetes Gauß-Prädiktionsparadigma, bei dem jedes 2D-Pixel einem 3D-Gauß zugeordnet wird. Wir überdenken diese weit verbreitete Formulierung und identifizieren mehrere inhärente Einschränkungen: Sie macht die rekonstruierten 3D-Modelle stark abhängig von der Anzahl der Eingabeansichten, führt zu ansichtsverzerrten Dichteverteilungen und führt Ausrichtungsfehler ein, insbesondere wenn die Quellansichten Verdeckungen oder geringe Textur aufweisen. Um diese Herausforderungen zu bewältigen, führen wir VolSplat ein, ein neues Multi-View-Feed-forward-Paradigma, das die Pixelausrichtung durch voxelausgerichtete Gaußsche ersetzt. Durch die direkte Vorhersage von Gaußschen aus einem vorhergesagten 3D-Voxelgitter überwindet es die Abhängigkeit der Pixelausrichtung von fehleranfälliger 2D-Feature-Matching, was eine robuste Multi-View-Konsistenz gewährleistet. Darüber hinaus ermöglicht es eine adaptive Kontrolle über die Gaußsche Dichte basierend auf der 3D-Szenenkomplexität, was zu treueren Gaußschen Punktwolken, verbesserter geometrischer Konsistenz und einer gesteigerten Qualität der Ansichtssynthese führt. Experimente auf weit verbreiteten Benchmarks wie RealEstate10K und ScanNet zeigen, dass VolSplat state-of-the-art Leistungen erzielt und dabei plausiblere und ansichtskonsistentere Gaußsche Rekonstruktionen erzeugt. Neben überlegenen Ergebnissen etabliert unser Ansatz ein skalierbares Framework für die Feed-forward-3D-Rekonstruktion mit dichteren und robusteren Repräsentationen, was den Weg für weitere Forschungen in breiteren Gemeinschaften ebnet. Die Videoergebnisse, der Code und die trainierten Modelle sind auf unserer Projektseite verfügbar: https://lhmd.top/volsplat.
English
Feed-forward 3D Gaussian Splatting (3DGS) has emerged as a highly effective
solution for novel view synthesis. Existing methods predominantly rely on a
pixel-aligned Gaussian prediction paradigm, where each 2D pixel is mapped to a
3D Gaussian. We rethink this widely adopted formulation and identify several
inherent limitations: it renders the reconstructed 3D models heavily dependent
on the number of input views, leads to view-biased density distributions, and
introduces alignment errors, particularly when source views contain occlusions
or low texture. To address these challenges, we introduce VolSplat, a new
multi-view feed-forward paradigm that replaces pixel alignment with
voxel-aligned Gaussians. By directly predicting Gaussians from a predicted 3D
voxel grid, it overcomes pixel alignment's reliance on error-prone 2D feature
matching, ensuring robust multi-view consistency. Furthermore, it enables
adaptive control over Gaussian density based on 3D scene complexity, yielding
more faithful Gaussian point clouds, improved geometric consistency, and
enhanced novel-view rendering quality. Experiments on widely used benchmarks
including RealEstate10K and ScanNet demonstrate that VolSplat achieves
state-of-the-art performance while producing more plausible and view-consistent
Gaussian reconstructions. In addition to superior results, our approach
establishes a more scalable framework for feed-forward 3D reconstruction with
denser and more robust representations, paving the way for further research in
wider communities. The video results, code and trained models are available on
our project page: https://lhmd.top/volsplat.