ChatPaper.aiChatPaper

VolSplat : Repenser le rendu par projection de Gaussiennes 3D en mode feed-forward avec prédiction alignée sur voxels

VolSplat: Rethinking Feed-Forward 3D Gaussian Splatting with Voxel-Aligned Prediction

September 23, 2025
papers.authors: Weijie Wang, Yeqing Chen, Zeyu Zhang, Hengyu Liu, Haoxiao Wang, Zhiyuan Feng, Wenkang Qin, Zheng Zhu, Donny Y. Chen, Bohan Zhuang
cs.AI

papers.abstract

Le rendu par projection de Gaussiennes 3D en mode feed-forward (3DGS) s'est imposé comme une solution très efficace pour la synthèse de nouvelles vues. Les méthodes existantes reposent principalement sur un paradigme de prédiction de Gaussiennes alignées sur les pixels, où chaque pixel 2D est mappé à une Gaussienne 3D. Nous revisitons cette formulation largement adoptée et identifions plusieurs limitations inhérentes : elle rend les modèles 3D reconstruits fortement dépendants du nombre de vues d'entrée, conduit à des distributions de densité biaisées par la vue, et introduit des erreurs d'alignement, en particulier lorsque les vues sources contiennent des occlusions ou peu de texture. Pour relever ces défis, nous introduisons VolSplat, un nouveau paradigme feed-forward multi-vues qui remplace l'alignement sur les pixels par des Gaussiennes alignées sur des voxels. En prédisant directement les Gaussiennes à partir d'une grille de voxels 3D prédite, il surmonte la dépendance de l'alignement sur les pixels à un appariement de caractéristiques 2D sujet aux erreurs, assurant ainsi une robuste cohérence multi-vues. De plus, il permet un contrôle adaptatif de la densité des Gaussiennes en fonction de la complexité de la scène 3D, produisant des nuages de points Gaussien plus fidèles, une meilleure cohérence géométrique et une qualité de rendu des nouvelles vues améliorée. Les expériences sur des benchmarks largement utilisés, tels que RealEstate10K et ScanNet, démontrent que VolSplat atteint des performances de pointe tout en produisant des reconstructions Gaussiennes plus plausibles et cohérentes entre les vues. En plus de résultats supérieurs, notre approche établit un cadre plus évolutif pour la reconstruction 3D feed-forward avec des représentations plus denses et robustes, ouvrant la voie à de nouvelles recherches dans des communautés plus larges. Les résultats vidéo, le code et les modèles entraînés sont disponibles sur notre page de projet : https://lhmd.top/volsplat.
English
Feed-forward 3D Gaussian Splatting (3DGS) has emerged as a highly effective solution for novel view synthesis. Existing methods predominantly rely on a pixel-aligned Gaussian prediction paradigm, where each 2D pixel is mapped to a 3D Gaussian. We rethink this widely adopted formulation and identify several inherent limitations: it renders the reconstructed 3D models heavily dependent on the number of input views, leads to view-biased density distributions, and introduces alignment errors, particularly when source views contain occlusions or low texture. To address these challenges, we introduce VolSplat, a new multi-view feed-forward paradigm that replaces pixel alignment with voxel-aligned Gaussians. By directly predicting Gaussians from a predicted 3D voxel grid, it overcomes pixel alignment's reliance on error-prone 2D feature matching, ensuring robust multi-view consistency. Furthermore, it enables adaptive control over Gaussian density based on 3D scene complexity, yielding more faithful Gaussian point clouds, improved geometric consistency, and enhanced novel-view rendering quality. Experiments on widely used benchmarks including RealEstate10K and ScanNet demonstrate that VolSplat achieves state-of-the-art performance while producing more plausible and view-consistent Gaussian reconstructions. In addition to superior results, our approach establishes a more scalable framework for feed-forward 3D reconstruction with denser and more robust representations, paving the way for further research in wider communities. The video results, code and trained models are available on our project page: https://lhmd.top/volsplat.
PDF234September 24, 2025