GSFixer: Verbetering van 3D Gaussian Splatting met Referentie-Gestuurde Video Diffusie Priors

Samenvatting

Het reconstrueren van 3D-scènes met behulp van 3D Gaussian Splatting (3DGS) vanuit spaarzame views is een slecht gesteld probleem vanwege onvoldoende informatie, wat vaak resulteert in opvallende artefacten. Hoewel recente benaderingen hebben geprobeerd generatieve priors te benutten om informatie aan te vullen voor onderbeperkte regio's, hebben ze moeite om inhoud te genereren die consistent blijft met de ingevoerde observaties. Om deze uitdaging aan te pakken, stellen we GSFixer voor, een nieuw raamwerk ontworpen om de kwaliteit van 3DGS-representaties gereconstrueerd vanuit spaarzame inputs te verbeteren. De kern van onze aanpak is het referentie-geleide videorestauratiemodel, gebaseerd op een DiT-gebaseerd videodiffusiemodel getraind op gepaarde artefact 3DGS-renders en schone frames met aanvullende referentie-gebaseerde condities. Door de ingevoerde spaarzame views als referenties te beschouwen, integreert ons model zowel 2D semantische kenmerken als 3D geometrische kenmerken van referentieviews die zijn geëxtraheerd uit het visuele geometrie-fundamentmodel, waardoor de semantische samenhang en 3D-consistentie worden verbeterd bij het herstellen van artefact-nieuwe views. Bovendien, gezien het gebrek aan geschikte benchmarks voor de evaluatie van 3DGS-artefactrestauratie, presenteren we DL3DV-Res, dat artefactframes bevat die zijn gerenderd met behulp van lage kwaliteit 3DGS. Uitgebreide experimenten tonen aan dat onze GSFixer de huidige state-of-the-art methoden overtreft in 3DGS-artefactrestauratie en 3D-reconstructie vanuit spaarzame views. Projectpagina: https://github.com/GVCLab/GSFixer.

English

Reconstructing 3D scenes using 3D Gaussian Splatting (3DGS) from sparse views is an ill-posed problem due to insufficient information, often resulting in noticeable artifacts. While recent approaches have sought to leverage generative priors to complete information for under-constrained regions, they struggle to generate content that remains consistent with input observations. To address this challenge, we propose GSFixer, a novel framework designed to improve the quality of 3DGS representations reconstructed from sparse inputs. The core of our approach is the reference-guided video restoration model, built upon a DiT-based video diffusion model trained on paired artifact 3DGS renders and clean frames with additional reference-based conditions. Considering the input sparse views as references, our model integrates both 2D semantic features and 3D geometric features of reference views extracted from the visual geometry foundation model, enhancing the semantic coherence and 3D consistency when fixing artifact novel views. Furthermore, considering the lack of suitable benchmarks for 3DGS artifact restoration evaluation, we present DL3DV-Res which contains artifact frames rendered using low-quality 3DGS. Extensive experiments demonstrate our GSFixer outperforms current state-of-the-art methods in 3DGS artifact restoration and sparse-view 3D reconstruction. Project page: https://github.com/GVCLab/GSFixer.

GSFixer: Verbetering van 3D Gaussian Splatting met Referentie-Gestuurde Video Diffusie Priors

GSFixer: Improving 3D Gaussian Splatting with Reference-Guided Video Diffusion Priors

Samenvatting

Support