Difix3D+: Melhorando Reconstruções 3D com Modelos de Difusão em Única Etapa

Resumo

Os Campos de Radiação Neural (NeRF) e o 3D Gaussian Splatting revolucionaram as tarefas de reconstrução 3D e síntese de novas vistas. No entanto, alcançar renderizações foto-realistas a partir de pontos de vista extremamente novos continua desafiador, pois artefatos persistem em diferentes representações. Neste trabalho, apresentamos o Difix3D+, um novo pipeline projetado para aprimorar a reconstrução 3D e a síntese de novas vistas por meio de modelos de difusão em etapa única. No cerne de nossa abordagem está o Difix, um modelo de difusão de imagem em etapa única treinado para aprimorar e remover artefatos em vistas novas renderizadas causados por regiões sub-restritas da representação 3D. O Difix desempenha dois papéis críticos em nosso pipeline. Primeiro, ele é usado durante a fase de reconstrução para limpar vistas pseudo-treinadas que são renderizadas a partir da reconstrução e então destiladas de volta em 3D. Isso melhora significativamente as regiões sub-restritas e aprimora a qualidade geral da representação 3D. Mais importante, o Difix também atua como um aprimorador neural durante a inferência, removendo efetivamente artefatos residuais decorrentes de supervisão 3D imperfeita e da capacidade limitada dos modelos de reconstrução atuais. O Difix3D+ é uma solução geral, um único modelo compatível com representações tanto de NeRF quanto de 3DGS, e alcança uma melhoria média de 2 vezes no score FID em relação às baselines, mantendo a consistência 3D.

English

Neural Radiance Fields and 3D Gaussian Splatting have revolutionized 3D reconstruction and novel-view synthesis task. However, achieving photorealistic rendering from extreme novel viewpoints remains challenging, as artifacts persist across representations. In this work, we introduce Difix3D+, a novel pipeline designed to enhance 3D reconstruction and novel-view synthesis through single-step diffusion models. At the core of our approach is Difix, a single-step image diffusion model trained to enhance and remove artifacts in rendered novel views caused by underconstrained regions of the 3D representation. Difix serves two critical roles in our pipeline. First, it is used during the reconstruction phase to clean up pseudo-training views that are rendered from the reconstruction and then distilled back into 3D. This greatly enhances underconstrained regions and improves the overall 3D representation quality. More importantly, Difix also acts as a neural enhancer during inference, effectively removing residual artifacts arising from imperfect 3D supervision and the limited capacity of current reconstruction models. Difix3D+ is a general solution, a single model compatible with both NeRF and 3DGS representations, and it achieves an average 2times improvement in FID score over baselines while maintaining 3D consistency.

Difix3D+: Melhorando Reconstruções 3D com Modelos de Difusão em Única Etapa

Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models

Resumo

Summary

Support

Support