VolSplat: Переосмысление прямого распространения 3D-гауссовых сплатов с использованием воксельно-выровненного предсказания
VolSplat: Rethinking Feed-Forward 3D Gaussian Splatting with Voxel-Aligned Prediction
September 23, 2025
Авторы: Weijie Wang, Yeqing Chen, Zeyu Zhang, Hengyu Liu, Haoxiao Wang, Zhiyuan Feng, Wenkang Qin, Zheng Zhu, Donny Y. Chen, Bohan Zhuang
cs.AI
Аннотация
Прямое преобразование 3D-гауссовых сплатов (3DGS) стало высокоэффективным решением для синтеза новых видов. Существующие методы в основном опираются на парадигму предсказания гауссовых распределений, выровненных по пикселям, где каждый 2D-пиксель отображается на 3D-гауссово распределение. Мы переосмысливаем эту широко используемую формулировку и выявляем несколько присущих ей ограничений: она делает реконструированные 3D-модели сильно зависимыми от количества входных видов, приводит к смещенным распределениям плотности и вносит ошибки выравнивания, особенно когда исходные виды содержат окклюзии или низкую текстуру. Для решения этих проблем мы представляем VolSplat — новую парадигму прямого преобразования для многовидовых данных, которая заменяет выравнивание по пикселям на выравнивание по вокселям. Прямое предсказание гауссовых распределений из предсказанной 3D-воксельной сетки устраняет зависимость от ненадежного 2D-сопоставления признаков, обеспечивая устойчивую согласованность между видами. Кроме того, она позволяет адаптивно управлять плотностью гауссовых распределений на основе сложности 3D-сцены, что приводит к более точным гауссовым облакам точек, улучшенной геометрической согласованности и повышению качества рендеринга новых видов. Эксперименты на широко используемых наборах данных, включая RealEstate10K и ScanNet, демонстрируют, что VolSplat достигает наилучших результатов, создавая более правдоподобные и согласованные между видами гауссовы реконструкции. Помимо превосходных результатов, наш подход устанавливает более масштабируемую основу для прямого 3D-реконструирования с более плотными и устойчивыми представлениями, открывая путь для дальнейших исследований в более широких сообществах. Видео, код и обученные модели доступны на странице проекта: https://lhmd.top/volsplat.
English
Feed-forward 3D Gaussian Splatting (3DGS) has emerged as a highly effective
solution for novel view synthesis. Existing methods predominantly rely on a
pixel-aligned Gaussian prediction paradigm, where each 2D pixel is mapped to a
3D Gaussian. We rethink this widely adopted formulation and identify several
inherent limitations: it renders the reconstructed 3D models heavily dependent
on the number of input views, leads to view-biased density distributions, and
introduces alignment errors, particularly when source views contain occlusions
or low texture. To address these challenges, we introduce VolSplat, a new
multi-view feed-forward paradigm that replaces pixel alignment with
voxel-aligned Gaussians. By directly predicting Gaussians from a predicted 3D
voxel grid, it overcomes pixel alignment's reliance on error-prone 2D feature
matching, ensuring robust multi-view consistency. Furthermore, it enables
adaptive control over Gaussian density based on 3D scene complexity, yielding
more faithful Gaussian point clouds, improved geometric consistency, and
enhanced novel-view rendering quality. Experiments on widely used benchmarks
including RealEstate10K and ScanNet demonstrate that VolSplat achieves
state-of-the-art performance while producing more plausible and view-consistent
Gaussian reconstructions. In addition to superior results, our approach
establishes a more scalable framework for feed-forward 3D reconstruction with
denser and more robust representations, paving the way for further research in
wider communities. The video results, code and trained models are available on
our project page: https://lhmd.top/volsplat.