GSFixer: Улучшение 3D-гауссовых сплатов с использованием эталонно-ориентированных видеодиффузионных априоров
GSFixer: Improving 3D Gaussian Splatting with Reference-Guided Video Diffusion Priors
August 13, 2025
Авторы: Xingyilang Yin, Qi Zhang, Jiahao Chang, Ying Feng, Qingnan Fan, Xi Yang, Chi-Man Pun, Huaqi Zhang, Xiaodong Cun
cs.AI
Аннотация
Восстановление 3D-сцен с использованием метода 3D Gaussian Splatting (3DGS) на основе разреженных видов является некорректно поставленной задачей из-за недостатка информации, что часто приводит к заметным артефактам. Хотя современные подходы пытаются использовать генеративные априорные данные для заполнения информации в недостаточно ограниченных областях, они сталкиваются с трудностями в создании контента, который остается согласованным с входными наблюдениями. Для решения этой проблемы мы предлагаем GSFixer — новую структуру, предназначенную для повышения качества 3DGS-представлений, восстановленных из разреженных входных данных. Основой нашего подхода является модель восстановления видео с использованием эталонных данных, построенная на основе DiT-модели диффузии видео, обученной на парных рендерах 3DGS с артефактами и чистых кадрах с дополнительными условиями, основанными на эталонах. Рассматривая входные разреженные виды как эталоны, наша модель интегрирует как 2D семантические, так и 3D геометрические признаки эталонных видов, извлеченные из базовой модели визуальной геометрии, что улучшает семантическую согласованность и 3D-консистентность при исправлении артефактов в новых видах. Кроме того, учитывая отсутствие подходящих эталонов для оценки восстановления артефактов 3DGS, мы представляем DL3DV-Res, который содержит кадры с артефактами, отрендеренные с использованием низкокачественного 3DGS. Многочисленные эксперименты демонстрируют, что наш GSFixer превосходит современные методы в восстановлении артефактов 3DGS и реконструкции 3D-сцен по разреженным видам. Страница проекта: https://github.com/GVCLab/GSFixer.
English
Reconstructing 3D scenes using 3D Gaussian Splatting (3DGS) from sparse views
is an ill-posed problem due to insufficient information, often resulting in
noticeable artifacts. While recent approaches have sought to leverage
generative priors to complete information for under-constrained regions, they
struggle to generate content that remains consistent with input observations.
To address this challenge, we propose GSFixer, a novel framework designed to
improve the quality of 3DGS representations reconstructed from sparse inputs.
The core of our approach is the reference-guided video restoration model, built
upon a DiT-based video diffusion model trained on paired artifact 3DGS renders
and clean frames with additional reference-based conditions. Considering the
input sparse views as references, our model integrates both 2D semantic
features and 3D geometric features of reference views extracted from the visual
geometry foundation model, enhancing the semantic coherence and 3D consistency
when fixing artifact novel views. Furthermore, considering the lack of suitable
benchmarks for 3DGS artifact restoration evaluation, we present DL3DV-Res which
contains artifact frames rendered using low-quality 3DGS. Extensive experiments
demonstrate our GSFixer outperforms current state-of-the-art methods in 3DGS
artifact restoration and sparse-view 3D reconstruction. Project page:
https://github.com/GVCLab/GSFixer.