Difix3D+: Melhorando Reconstruções 3D com Modelos de Difusão em Única Etapa
Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models
March 3, 2025
Autores: Jay Zhangjie Wu, Yuxuan Zhang, Haithem Turki, Xuanchi Ren, Jun Gao, Mike Zheng Shou, Sanja Fidler, Zan Gojcic, Huan Ling
cs.AI
Resumo
Os Campos de Radiação Neural (NeRF) e o 3D Gaussian Splatting revolucionaram as tarefas de reconstrução 3D e síntese de novas vistas. No entanto, alcançar renderizações foto-realistas a partir de pontos de vista extremamente novos continua desafiador, pois artefatos persistem em diferentes representações. Neste trabalho, apresentamos o Difix3D+, um novo pipeline projetado para aprimorar a reconstrução 3D e a síntese de novas vistas por meio de modelos de difusão em etapa única. No cerne de nossa abordagem está o Difix, um modelo de difusão de imagem em etapa única treinado para aprimorar e remover artefatos em vistas novas renderizadas causados por regiões sub-restritas da representação 3D. O Difix desempenha dois papéis críticos em nosso pipeline. Primeiro, ele é usado durante a fase de reconstrução para limpar vistas pseudo-treinadas que são renderizadas a partir da reconstrução e então destiladas de volta em 3D. Isso melhora significativamente as regiões sub-restritas e aprimora a qualidade geral da representação 3D. Mais importante, o Difix também atua como um aprimorador neural durante a inferência, removendo efetivamente artefatos residuais decorrentes de supervisão 3D imperfeita e da capacidade limitada dos modelos de reconstrução atuais. O Difix3D+ é uma solução geral, um único modelo compatível com representações tanto de NeRF quanto de 3DGS, e alcança uma melhoria média de 2 vezes no score FID em relação às baselines, mantendo a consistência 3D.
English
Neural Radiance Fields and 3D Gaussian Splatting have revolutionized 3D
reconstruction and novel-view synthesis task. However, achieving photorealistic
rendering from extreme novel viewpoints remains challenging, as artifacts
persist across representations. In this work, we introduce Difix3D+, a novel
pipeline designed to enhance 3D reconstruction and novel-view synthesis through
single-step diffusion models. At the core of our approach is Difix, a
single-step image diffusion model trained to enhance and remove artifacts in
rendered novel views caused by underconstrained regions of the 3D
representation. Difix serves two critical roles in our pipeline. First, it is
used during the reconstruction phase to clean up pseudo-training views that are
rendered from the reconstruction and then distilled back into 3D. This greatly
enhances underconstrained regions and improves the overall 3D representation
quality. More importantly, Difix also acts as a neural enhancer during
inference, effectively removing residual artifacts arising from imperfect 3D
supervision and the limited capacity of current reconstruction models. Difix3D+
is a general solution, a single model compatible with both NeRF and 3DGS
representations, and it achieves an average 2times improvement in FID score
over baselines while maintaining 3D consistency.Summary
AI-Generated Summary