VolSplat: Repensando o Splatting Gaussiano 3D Feed-Forward com Predição Alinhada a Voxel
VolSplat: Rethinking Feed-Forward 3D Gaussian Splatting with Voxel-Aligned Prediction
September 23, 2025
Autores: Weijie Wang, Yeqing Chen, Zeyu Zhang, Hengyu Liu, Haoxiao Wang, Zhiyuan Feng, Wenkang Qin, Zheng Zhu, Donny Y. Chen, Bohan Zhuang
cs.AI
Resumo
O método Feed-forward 3D Gaussian Splatting (3DGS) surgiu como uma solução altamente eficaz para a síntese de novas visões. Os métodos existentes dependem predominantemente de um paradigma de predição de Gaussianas alinhadas por pixel, onde cada pixel 2D é mapeado para uma Gaussiana 3D. Repensamos essa formulação amplamente adotada e identificamos várias limitações inerentes: ela torna os modelos 3D reconstruídos fortemente dependentes do número de visões de entrada, leva a distribuições de densidade tendenciosas em relação à visão e introduz erros de alinhamento, especialmente quando as visões de origem contêm oclusões ou baixa textura. Para enfrentar esses desafios, introduzimos o VolSplat, um novo paradigma feed-forward multi-visão que substitui o alinhamento por pixel por Gaussianas alinhadas por voxel. Ao prever diretamente Gaussianas a partir de uma grade de voxels 3D prevista, ele supera a dependência do alinhamento por pixel em relação à correspondência de características 2D propensa a erros, garantindo consistência robusta entre múltiplas visões. Além disso, ele permite o controle adaptativo da densidade das Gaussianas com base na complexidade da cena 3D, resultando em nuvens de pontos Gaussianas mais fiéis, melhor consistência geométrica e qualidade aprimorada na renderização de novas visões. Experimentos em benchmarks amplamente utilizados, como RealEstate10K e ScanNet, demonstram que o VolSplat alcança desempenho de ponta enquanto produz reconstruções Gaussianas mais plausíveis e consistentes em relação à visão. Além de resultados superiores, nossa abordagem estabelece uma estrutura mais escalável para reconstrução 3D feed-forward com representações mais densas e robustas, abrindo caminho para pesquisas adicionais em comunidades mais amplas. Os resultados em vídeo, código e modelos treinados estão disponíveis em nossa página do projeto: https://lhmd.top/volsplat.
English
Feed-forward 3D Gaussian Splatting (3DGS) has emerged as a highly effective
solution for novel view synthesis. Existing methods predominantly rely on a
pixel-aligned Gaussian prediction paradigm, where each 2D pixel is mapped to a
3D Gaussian. We rethink this widely adopted formulation and identify several
inherent limitations: it renders the reconstructed 3D models heavily dependent
on the number of input views, leads to view-biased density distributions, and
introduces alignment errors, particularly when source views contain occlusions
or low texture. To address these challenges, we introduce VolSplat, a new
multi-view feed-forward paradigm that replaces pixel alignment with
voxel-aligned Gaussians. By directly predicting Gaussians from a predicted 3D
voxel grid, it overcomes pixel alignment's reliance on error-prone 2D feature
matching, ensuring robust multi-view consistency. Furthermore, it enables
adaptive control over Gaussian density based on 3D scene complexity, yielding
more faithful Gaussian point clouds, improved geometric consistency, and
enhanced novel-view rendering quality. Experiments on widely used benchmarks
including RealEstate10K and ScanNet demonstrate that VolSplat achieves
state-of-the-art performance while producing more plausible and view-consistent
Gaussian reconstructions. In addition to superior results, our approach
establishes a more scalable framework for feed-forward 3D reconstruction with
denser and more robust representations, paving the way for further research in
wider communities. The video results, code and trained models are available on
our project page: https://lhmd.top/volsplat.