GSFixer: Verbetering van 3D Gaussian Splatting met Referentie-Gestuurde Video Diffusie Priors
GSFixer: Improving 3D Gaussian Splatting with Reference-Guided Video Diffusion Priors
August 13, 2025
Auteurs: Xingyilang Yin, Qi Zhang, Jiahao Chang, Ying Feng, Qingnan Fan, Xi Yang, Chi-Man Pun, Huaqi Zhang, Xiaodong Cun
cs.AI
Samenvatting
Het reconstrueren van 3D-scènes met behulp van 3D Gaussian Splatting (3DGS) vanuit spaarzame views is een slecht gesteld probleem vanwege onvoldoende informatie, wat vaak resulteert in opvallende artefacten. Hoewel recente benaderingen hebben geprobeerd generatieve priors te benutten om informatie aan te vullen voor onderbeperkte regio's, hebben ze moeite om inhoud te genereren die consistent blijft met de ingevoerde observaties. Om deze uitdaging aan te pakken, stellen we GSFixer voor, een nieuw raamwerk ontworpen om de kwaliteit van 3DGS-representaties gereconstrueerd vanuit spaarzame inputs te verbeteren. De kern van onze aanpak is het referentie-geleide videorestauratiemodel, gebaseerd op een DiT-gebaseerd videodiffusiemodel getraind op gepaarde artefact 3DGS-renders en schone frames met aanvullende referentie-gebaseerde condities. Door de ingevoerde spaarzame views als referenties te beschouwen, integreert ons model zowel 2D semantische kenmerken als 3D geometrische kenmerken van referentieviews die zijn geëxtraheerd uit het visuele geometrie-fundamentmodel, waardoor de semantische samenhang en 3D-consistentie worden verbeterd bij het herstellen van artefact-nieuwe views. Bovendien, gezien het gebrek aan geschikte benchmarks voor de evaluatie van 3DGS-artefactrestauratie, presenteren we DL3DV-Res, dat artefactframes bevat die zijn gerenderd met behulp van lage kwaliteit 3DGS. Uitgebreide experimenten tonen aan dat onze GSFixer de huidige state-of-the-art methoden overtreft in 3DGS-artefactrestauratie en 3D-reconstructie vanuit spaarzame views. Projectpagina: https://github.com/GVCLab/GSFixer.
English
Reconstructing 3D scenes using 3D Gaussian Splatting (3DGS) from sparse views
is an ill-posed problem due to insufficient information, often resulting in
noticeable artifacts. While recent approaches have sought to leverage
generative priors to complete information for under-constrained regions, they
struggle to generate content that remains consistent with input observations.
To address this challenge, we propose GSFixer, a novel framework designed to
improve the quality of 3DGS representations reconstructed from sparse inputs.
The core of our approach is the reference-guided video restoration model, built
upon a DiT-based video diffusion model trained on paired artifact 3DGS renders
and clean frames with additional reference-based conditions. Considering the
input sparse views as references, our model integrates both 2D semantic
features and 3D geometric features of reference views extracted from the visual
geometry foundation model, enhancing the semantic coherence and 3D consistency
when fixing artifact novel views. Furthermore, considering the lack of suitable
benchmarks for 3DGS artifact restoration evaluation, we present DL3DV-Res which
contains artifact frames rendered using low-quality 3DGS. Extensive experiments
demonstrate our GSFixer outperforms current state-of-the-art methods in 3DGS
artifact restoration and sparse-view 3D reconstruction. Project page:
https://github.com/GVCLab/GSFixer.