GSFixer : Amélioration du Splatting Gaussien 3D grâce à des A Priori de Diffusion Vidéo Guidés par Référence

papers.abstract

La reconstruction de scènes 3D à l'aide de la technique de *3D Gaussian Splatting* (3DGS) à partir de vues éparses constitue un problème mal posé en raison d'informations insuffisantes, ce qui entraîne souvent des artefacts visibles. Bien que des approches récentes aient cherché à exploiter des *priors* génératifs pour compléter les informations dans les régions sous-contraintes, elles peinent à générer un contenu restant cohérent avec les observations d'entrée. Pour relever ce défi, nous proposons GSFixer, un nouveau cadre conçu pour améliorer la qualité des représentations 3DGS reconstruites à partir d'entrées éparses. Le cœur de notre approche repose sur un modèle de restauration vidéo guidé par référence, basé sur un modèle de diffusion vidéo *DiT* entraîné sur des rendus 3DGS avec artefacts et des images propres, enrichi de conditions supplémentaires basées sur des références. En considérant les vues éparses d'entrée comme références, notre modèle intègre à la fois les caractéristiques sémantiques 2D et les caractéristiques géométriques 3D des vues de référence extraites d'un modèle de fondation de géométrie visuelle, améliorant ainsi la cohérence sémantique et la consistance 3D lors de la correction des artefacts dans les nouvelles vues. Par ailleurs, face au manque de benchmarks adaptés pour l'évaluation de la restauration d'artefacts 3DGS, nous présentons DL3DV-Res, qui contient des images avec artefacts rendues à partir de 3DGS de faible qualité. Des expériences approfondies démontrent que GSFixer surpasse les méthodes actuelles de pointe en matière de restauration d'artefacts 3DGS et de reconstruction 3D à partir de vues éparses. Page du projet : https://github.com/GVCLab/GSFixer.

English

Reconstructing 3D scenes using 3D Gaussian Splatting (3DGS) from sparse views is an ill-posed problem due to insufficient information, often resulting in noticeable artifacts. While recent approaches have sought to leverage generative priors to complete information for under-constrained regions, they struggle to generate content that remains consistent with input observations. To address this challenge, we propose GSFixer, a novel framework designed to improve the quality of 3DGS representations reconstructed from sparse inputs. The core of our approach is the reference-guided video restoration model, built upon a DiT-based video diffusion model trained on paired artifact 3DGS renders and clean frames with additional reference-based conditions. Considering the input sparse views as references, our model integrates both 2D semantic features and 3D geometric features of reference views extracted from the visual geometry foundation model, enhancing the semantic coherence and 3D consistency when fixing artifact novel views. Furthermore, considering the lack of suitable benchmarks for 3DGS artifact restoration evaluation, we present DL3DV-Res which contains artifact frames rendered using low-quality 3DGS. Extensive experiments demonstrate our GSFixer outperforms current state-of-the-art methods in 3DGS artifact restoration and sparse-view 3D reconstruction. Project page: https://github.com/GVCLab/GSFixer.

GSFixer : Amélioration du Splatting Gaussien 3D grâce à des A Priori de Diffusion Vidéo Guidés par Référence

GSFixer: Improving 3D Gaussian Splatting with Reference-Guided Video Diffusion Priors

papers.abstract

Support