GSFixer: Mejora del Splatting Gaussiano 3D mediante Priores de Difusión de Vídeo Guiados por Referencia
GSFixer: Improving 3D Gaussian Splatting with Reference-Guided Video Diffusion Priors
August 13, 2025
Autores: Xingyilang Yin, Qi Zhang, Jiahao Chang, Ying Feng, Qingnan Fan, Xi Yang, Chi-Man Pun, Huaqi Zhang, Xiaodong Cun
cs.AI
Resumen
Reconstruir escenas 3D utilizando 3D Gaussian Splatting (3DGS) a partir de vistas dispersas es un problema mal planteado debido a la información insuficiente, lo que a menudo resulta en artefactos notables. Aunque enfoques recientes han buscado aprovechar priors generativos para completar la información en regiones sub-constreñidas, estos luchan por generar contenido que permanezca consistente con las observaciones de entrada. Para abordar este desafío, proponemos GSFixer, un marco novedoso diseñado para mejorar la calidad de las representaciones 3DGS reconstruidas a partir de entradas dispersas. El núcleo de nuestro enfoque es el modelo de restauración de video guiado por referencia, basado en un modelo de difusión de video DiT entrenado en renders 3DGS con artefactos y frames limpios con condiciones adicionales basadas en referencias. Considerando las vistas dispersas de entrada como referencias, nuestro modelo integra tanto características semánticas 2D como características geométricas 3D de las vistas de referencia extraídas del modelo fundacional de geometría visual, mejorando la coherencia semántica y la consistencia 3D al corregir artefactos en nuevas vistas. Además, considerando la falta de benchmarks adecuados para la evaluación de la restauración de artefactos en 3DGS, presentamos DL3DV-Res, que contiene frames con artefactos renderizados utilizando 3DGS de baja calidad. Experimentos extensivos demuestran que nuestro GSFixer supera a los métodos actuales más avanzados en la restauración de artefactos 3DGS y la reconstrucción 3D a partir de vistas dispersas. Página del proyecto: https://github.com/GVCLab/GSFixer.
English
Reconstructing 3D scenes using 3D Gaussian Splatting (3DGS) from sparse views
is an ill-posed problem due to insufficient information, often resulting in
noticeable artifacts. While recent approaches have sought to leverage
generative priors to complete information for under-constrained regions, they
struggle to generate content that remains consistent with input observations.
To address this challenge, we propose GSFixer, a novel framework designed to
improve the quality of 3DGS representations reconstructed from sparse inputs.
The core of our approach is the reference-guided video restoration model, built
upon a DiT-based video diffusion model trained on paired artifact 3DGS renders
and clean frames with additional reference-based conditions. Considering the
input sparse views as references, our model integrates both 2D semantic
features and 3D geometric features of reference views extracted from the visual
geometry foundation model, enhancing the semantic coherence and 3D consistency
when fixing artifact novel views. Furthermore, considering the lack of suitable
benchmarks for 3DGS artifact restoration evaluation, we present DL3DV-Res which
contains artifact frames rendered using low-quality 3DGS. Extensive experiments
demonstrate our GSFixer outperforms current state-of-the-art methods in 3DGS
artifact restoration and sparse-view 3D reconstruction. Project page:
https://github.com/GVCLab/GSFixer.