GSFixer: Miglioramento del 3D Gaussian Splatting mediante Prior di Diffusione Video Guidati da Riferimento
GSFixer: Improving 3D Gaussian Splatting with Reference-Guided Video Diffusion Priors
August 13, 2025
Autori: Xingyilang Yin, Qi Zhang, Jiahao Chang, Ying Feng, Qingnan Fan, Xi Yang, Chi-Man Pun, Huaqi Zhang, Xiaodong Cun
cs.AI
Abstract
La ricostruzione di scene 3D utilizzando il 3D Gaussian Splatting (3DGS) a partire da viste sparse è un problema mal posto a causa di informazioni insufficienti, che spesso si traducono in artefatti evidenti. Sebbene approcci recenti abbiano cercato di sfruttare prior generativi per completare le informazioni nelle regioni sottodeterminate, essi faticano a generare contenuti che rimangano coerenti con le osservazioni in ingresso. Per affrontare questa sfida, proponiamo GSFixer, un nuovo framework progettato per migliorare la qualità delle rappresentazioni 3DGS ricostruite da input sparsi. Il cuore del nostro approccio è il modello di restauro video guidato da riferimento, basato su un modello di diffusione video DiT addestrato su rendering 3DGS con artefatti e frame puliti, con condizioni aggiuntive basate su riferimenti. Considerando le viste sparse in ingresso come riferimenti, il nostro modello integra sia le caratteristiche semantiche 2D che le caratteristiche geometriche 3D delle viste di riferimento estratte dal modello di base della geometria visiva, migliorando la coerenza semantica e la consistenza 3D durante la correzione di nuove viste con artefatti. Inoltre, considerando la mancanza di benchmark adatti per la valutazione del restauro di artefatti 3DGS, presentiamo DL3DV-Res, che contiene frame con artefatti renderizzati utilizzando 3DGS di bassa qualità. Esperimenti estesi dimostrano che il nostro GSFixer supera i metodi attuali all'avanguardia nel restauro di artefatti 3DGS e nella ricostruzione 3D da viste sparse. Pagina del progetto: https://github.com/GVCLab/GSFixer.
English
Reconstructing 3D scenes using 3D Gaussian Splatting (3DGS) from sparse views
is an ill-posed problem due to insufficient information, often resulting in
noticeable artifacts. While recent approaches have sought to leverage
generative priors to complete information for under-constrained regions, they
struggle to generate content that remains consistent with input observations.
To address this challenge, we propose GSFixer, a novel framework designed to
improve the quality of 3DGS representations reconstructed from sparse inputs.
The core of our approach is the reference-guided video restoration model, built
upon a DiT-based video diffusion model trained on paired artifact 3DGS renders
and clean frames with additional reference-based conditions. Considering the
input sparse views as references, our model integrates both 2D semantic
features and 3D geometric features of reference views extracted from the visual
geometry foundation model, enhancing the semantic coherence and 3D consistency
when fixing artifact novel views. Furthermore, considering the lack of suitable
benchmarks for 3DGS artifact restoration evaluation, we present DL3DV-Res which
contains artifact frames rendered using low-quality 3DGS. Extensive experiments
demonstrate our GSFixer outperforms current state-of-the-art methods in 3DGS
artifact restoration and sparse-view 3D reconstruction. Project page:
https://github.com/GVCLab/GSFixer.