VolSplat: Replanteando el Splatting Gaussiano 3D de avance con predicción alineada a vóxeles
VolSplat: Rethinking Feed-Forward 3D Gaussian Splatting with Voxel-Aligned Prediction
September 23, 2025
Autores: Weijie Wang, Yeqing Chen, Zeyu Zhang, Hengyu Liu, Haoxiao Wang, Zhiyuan Feng, Wenkang Qin, Zheng Zhu, Donny Y. Chen, Bohan Zhuang
cs.AI
Resumen
El enfoque de proyección hacia adelante con Splatting Gaussiano 3D (3DGS) ha surgido como una solución altamente efectiva para la síntesis de nuevas vistas. Los métodos existentes se basan predominantemente en un paradigma de predicción Gaussiana alineada por píxeles, donde cada píxel 2D se mapea a un Gaussiano 3D. Replanteamos esta formulación ampliamente adoptada e identificamos varias limitaciones inherentes: hace que los modelos 3D reconstruidos dependan en gran medida del número de vistas de entrada, conduce a distribuciones de densidad sesgadas por la vista e introduce errores de alineación, especialmente cuando las vistas fuente contienen oclusiones o texturas bajas. Para abordar estos desafíos, presentamos VolSplat, un nuevo paradigma de proyección hacia adelante multi-vista que reemplaza la alineación por píxeles con Gaussianos alineados por vóxeles. Al predecir directamente Gaussianos a partir de una malla de vóxeles 3D predicha, supera la dependencia de la alineación por píxeles en la coincidencia de características 2D propensa a errores, asegurando una consistencia multi-vista robusta. Además, permite un control adaptativo sobre la densidad Gaussiana basado en la complejidad de la escena 3D, produciendo nubes de puntos Gaussianas más fieles, una mejor consistencia geométrica y una calidad mejorada en la renderización de nuevas vistas. Los experimentos en puntos de referencia ampliamente utilizados, como RealEstate10K y ScanNet, demuestran que VolSplat alcanza un rendimiento de vanguardia mientras produce reconstrucciones Gaussianas más plausibles y consistentes con la vista. Además de resultados superiores, nuestro enfoque establece un marco más escalable para la reconstrucción 3D de proyección hacia adelante con representaciones más densas y robustas, allanando el camino para futuras investigaciones en comunidades más amplias. Los resultados en video, el código y los modelos entrenados están disponibles en nuestra página del proyecto: https://lhmd.top/volsplat.
English
Feed-forward 3D Gaussian Splatting (3DGS) has emerged as a highly effective
solution for novel view synthesis. Existing methods predominantly rely on a
pixel-aligned Gaussian prediction paradigm, where each 2D pixel is mapped to a
3D Gaussian. We rethink this widely adopted formulation and identify several
inherent limitations: it renders the reconstructed 3D models heavily dependent
on the number of input views, leads to view-biased density distributions, and
introduces alignment errors, particularly when source views contain occlusions
or low texture. To address these challenges, we introduce VolSplat, a new
multi-view feed-forward paradigm that replaces pixel alignment with
voxel-aligned Gaussians. By directly predicting Gaussians from a predicted 3D
voxel grid, it overcomes pixel alignment's reliance on error-prone 2D feature
matching, ensuring robust multi-view consistency. Furthermore, it enables
adaptive control over Gaussian density based on 3D scene complexity, yielding
more faithful Gaussian point clouds, improved geometric consistency, and
enhanced novel-view rendering quality. Experiments on widely used benchmarks
including RealEstate10K and ScanNet demonstrate that VolSplat achieves
state-of-the-art performance while producing more plausible and view-consistent
Gaussian reconstructions. In addition to superior results, our approach
establishes a more scalable framework for feed-forward 3D reconstruction with
denser and more robust representations, paving the way for further research in
wider communities. The video results, code and trained models are available on
our project page: https://lhmd.top/volsplat.