Difix3D+: Mejora de reconstrucciones 3D con modelos de difusión de un solo paso
Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models
March 3, 2025
Autores: Jay Zhangjie Wu, Yuxuan Zhang, Haithem Turki, Xuanchi Ren, Jun Gao, Mike Zheng Shou, Sanja Fidler, Zan Gojcic, Huan Ling
cs.AI
Resumen
Los Campos de Radiancia Neural (NeRF) y el Splatting Gaussiano 3D han revolucionado la reconstrucción 3D y la tarea de síntesis de nuevas vistas. Sin embargo, lograr renderizados fotorrealistas desde perspectivas extremadamente novedosas sigue siendo un desafío, ya que persisten artefactos en las representaciones. En este trabajo, presentamos Difix3D+, una novedosa pipeline diseñada para mejorar la reconstrucción 3D y la síntesis de nuevas vistas mediante modelos de difusión de un solo paso. En el núcleo de nuestro enfoque se encuentra Difix, un modelo de difusión de imágenes de un solo paso entrenado para mejorar y eliminar artefactos en las vistas novedosas renderizadas causados por regiones subconstreñidas de la representación 3D. Difix desempeña dos roles críticos en nuestra pipeline. Primero, se utiliza durante la fase de reconstrucción para limpiar las vistas pseudo-entrenadas que se renderizan a partir de la reconstrucción y luego se destilan de nuevo en 3D. Esto mejora significativamente las regiones subconstreñidas y aumenta la calidad general de la representación 3D. Más importante aún, Difix también actúa como un potenciador neuronal durante la inferencia, eliminando eficazmente los artefactos residuales que surgen de la supervisión 3D imperfecta y la capacidad limitada de los modelos de reconstrucción actuales. Difix3D+ es una solución general, un único modelo compatible con representaciones tanto de NeRF como de 3DGS, y logra una mejora promedio de 2 veces en la puntuación FID sobre las líneas base mientras mantiene la consistencia 3D.
English
Neural Radiance Fields and 3D Gaussian Splatting have revolutionized 3D
reconstruction and novel-view synthesis task. However, achieving photorealistic
rendering from extreme novel viewpoints remains challenging, as artifacts
persist across representations. In this work, we introduce Difix3D+, a novel
pipeline designed to enhance 3D reconstruction and novel-view synthesis through
single-step diffusion models. At the core of our approach is Difix, a
single-step image diffusion model trained to enhance and remove artifacts in
rendered novel views caused by underconstrained regions of the 3D
representation. Difix serves two critical roles in our pipeline. First, it is
used during the reconstruction phase to clean up pseudo-training views that are
rendered from the reconstruction and then distilled back into 3D. This greatly
enhances underconstrained regions and improves the overall 3D representation
quality. More importantly, Difix also acts as a neural enhancer during
inference, effectively removing residual artifacts arising from imperfect 3D
supervision and the limited capacity of current reconstruction models. Difix3D+
is a general solution, a single model compatible with both NeRF and 3DGS
representations, and it achieves an average 2times improvement in FID score
over baselines while maintaining 3D consistency.Summary
AI-Generated Summary