VolSplat: Ripensare il 3D Gaussian Splatting feed-forward con predizione allineata ai voxel
VolSplat: Rethinking Feed-Forward 3D Gaussian Splatting with Voxel-Aligned Prediction
September 23, 2025
Autori: Weijie Wang, Yeqing Chen, Zeyu Zhang, Hengyu Liu, Haoxiao Wang, Zhiyuan Feng, Wenkang Qin, Zheng Zhu, Donny Y. Chen, Bohan Zhuang
cs.AI
Abstract
Il Feed-forward 3D Gaussian Splatting (3DGS) è emerso come una soluzione altamente efficace per la sintesi di nuove viste. I metodi esistenti si basano prevalentemente su un paradigma di predizione Gaussiana allineata ai pixel, in cui ogni pixel 2D viene mappato su una Gaussiana 3D. Riconsideriamo questa formulazione ampiamente adottata e identifichiamo diverse limitazioni intrinseche: rende i modelli 3D ricostruiti fortemente dipendenti dal numero di viste di input, porta a distribuzioni di densità distorte dalla vista e introduce errori di allineamento, specialmente quando le viste sorgente contengono occlusioni o texture scarse. Per affrontare queste sfide, introduciamo VolSplat, un nuovo paradigma feed-forward multi-vista che sostituisce l'allineamento ai pixel con Gaussiane allineate ai voxel. Predicendo direttamente le Gaussiane da una griglia 3D di voxel prevista, supera la dipendenza dell'allineamento ai pixel da un'accoppiamento di feature 2D soggetto a errori, garantendo una robusta coerenza multi-vista. Inoltre, consente un controllo adattivo sulla densità delle Gaussiane basato sulla complessità della scena 3D, producendo nuvole di punti Gaussiane più fedeli, una migliore coerenza geometrica e una qualità superiore nel rendering di nuove viste. Gli esperimenti su benchmark ampiamente utilizzati, come RealEstate10K e ScanNet, dimostrano che VolSplat raggiunge prestazioni all'avanguardia, producendo ricostruzioni Gaussiane più plausibili e coerenti tra le viste. Oltre a risultati superiori, il nostro approccio stabilisce un framework più scalabile per la ricostruzione 3D feed-forward con rappresentazioni più dense e robuste, aprendo la strada a ulteriori ricerche in comunità più ampie. I risultati video, il codice e i modelli addestrati sono disponibili sulla nostra pagina del progetto: https://lhmd.top/volsplat.
English
Feed-forward 3D Gaussian Splatting (3DGS) has emerged as a highly effective
solution for novel view synthesis. Existing methods predominantly rely on a
pixel-aligned Gaussian prediction paradigm, where each 2D pixel is mapped to a
3D Gaussian. We rethink this widely adopted formulation and identify several
inherent limitations: it renders the reconstructed 3D models heavily dependent
on the number of input views, leads to view-biased density distributions, and
introduces alignment errors, particularly when source views contain occlusions
or low texture. To address these challenges, we introduce VolSplat, a new
multi-view feed-forward paradigm that replaces pixel alignment with
voxel-aligned Gaussians. By directly predicting Gaussians from a predicted 3D
voxel grid, it overcomes pixel alignment's reliance on error-prone 2D feature
matching, ensuring robust multi-view consistency. Furthermore, it enables
adaptive control over Gaussian density based on 3D scene complexity, yielding
more faithful Gaussian point clouds, improved geometric consistency, and
enhanced novel-view rendering quality. Experiments on widely used benchmarks
including RealEstate10K and ScanNet demonstrate that VolSplat achieves
state-of-the-art performance while producing more plausible and view-consistent
Gaussian reconstructions. In addition to superior results, our approach
establishes a more scalable framework for feed-forward 3D reconstruction with
denser and more robust representations, paving the way for further research in
wider communities. The video results, code and trained models are available on
our project page: https://lhmd.top/volsplat.