ChatPaper.aiChatPaper

GSFixer: Aprimorando o Splatting Gaussiano 3D com Priors de Difusão de Vídeo Guiados por Referência

GSFixer: Improving 3D Gaussian Splatting with Reference-Guided Video Diffusion Priors

August 13, 2025
Autores: Xingyilang Yin, Qi Zhang, Jiahao Chang, Ying Feng, Qingnan Fan, Xi Yang, Chi-Man Pun, Huaqi Zhang, Xiaodong Cun
cs.AI

Resumo

A reconstrução de cenas 3D usando 3D Gaussian Splatting (3DGS) a partir de visões esparsas é um problema mal posto devido à informação insuficiente, frequentemente resultando em artefatos perceptíveis. Embora abordagens recentes tenham buscado aproveitar priors generativos para completar informações em regiões sub-restritas, elas enfrentam dificuldades para gerar conteúdo que permaneça consistente com as observações de entrada. Para enfrentar esse desafio, propomos o GSFixer, uma nova estrutura projetada para melhorar a qualidade das representações 3DGS reconstruídas a partir de entradas esparsas. O núcleo de nossa abordagem é o modelo de restauração de vídeo guiado por referência, construído sobre um modelo de difusão de vídeo baseado em DiT treinado em renders 3DGS com artefatos e frames limpos com condições adicionais baseadas em referência. Considerando as visões esparsas de entrada como referências, nosso modelo integra tanto características semânticas 2D quanto características geométricas 3D das visões de referência extraídas do modelo de fundação de geometria visual, aprimorando a coerência semântica e a consistência 3D ao corrigir artefatos em novas visões. Além disso, considerando a falta de benchmarks adequados para avaliação de restauração de artefatos em 3DGS, apresentamos o DL3DV-Res, que contém frames renderizados usando 3DGS de baixa qualidade. Experimentos extensivos demonstram que nosso GSFixer supera os métodos atuais de última geração em restauração de artefatos 3DGS e reconstrução 3D a partir de visões esparsas. Página do projeto: https://github.com/GVCLab/GSFixer.
English
Reconstructing 3D scenes using 3D Gaussian Splatting (3DGS) from sparse views is an ill-posed problem due to insufficient information, often resulting in noticeable artifacts. While recent approaches have sought to leverage generative priors to complete information for under-constrained regions, they struggle to generate content that remains consistent with input observations. To address this challenge, we propose GSFixer, a novel framework designed to improve the quality of 3DGS representations reconstructed from sparse inputs. The core of our approach is the reference-guided video restoration model, built upon a DiT-based video diffusion model trained on paired artifact 3DGS renders and clean frames with additional reference-based conditions. Considering the input sparse views as references, our model integrates both 2D semantic features and 3D geometric features of reference views extracted from the visual geometry foundation model, enhancing the semantic coherence and 3D consistency when fixing artifact novel views. Furthermore, considering the lack of suitable benchmarks for 3DGS artifact restoration evaluation, we present DL3DV-Res which contains artifact frames rendered using low-quality 3DGS. Extensive experiments demonstrate our GSFixer outperforms current state-of-the-art methods in 3DGS artifact restoration and sparse-view 3D reconstruction. Project page: https://github.com/GVCLab/GSFixer.
PDF52August 14, 2025