Difix3D+ : Amélioration des reconstructions 3D grâce à des modèles de diffusion en une seule étape
Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models
March 3, 2025
Auteurs: Jay Zhangjie Wu, Yuxuan Zhang, Haithem Turki, Xuanchi Ren, Jun Gao, Mike Zheng Shou, Sanja Fidler, Zan Gojcic, Huan Ling
cs.AI
Résumé
Les champs de radiance neuronaux (NeRF) et le placage de gaussiennes 3D (3DGS) ont révolutionné les tâches de reconstruction 3D et de synthèse de nouvelles vues. Cependant, obtenir un rendu photoréaliste à partir de points de vue extrêmement nouveaux reste un défi, car des artefacts persistent à travers les représentations. Dans ce travail, nous présentons Difix3D+, une nouvelle pipeline conçue pour améliorer la reconstruction 3D et la synthèse de nouvelles vues grâce à des modèles de diffusion en une seule étape. Au cœur de notre approche se trouve Difix, un modèle de diffusion d'images en une seule étape entraîné pour améliorer et supprimer les artefacts dans les vues nouvelles rendues, causés par les régions sous-contraintes de la représentation 3D. Difix joue deux rôles critiques dans notre pipeline. Premièrement, il est utilisé pendant la phase de reconstruction pour nettoyer les vues pseudo-d'entraînement qui sont rendues à partir de la reconstruction puis distillées à nouveau en 3D. Cela améliore considérablement les régions sous-contraintes et améliore la qualité globale de la représentation 3D. Plus important encore, Difix agit également comme un amplificateur neuronal pendant l'inférence, supprimant efficacement les artefacts résiduels résultant d'une supervision 3D imparfaite et de la capacité limitée des modèles de reconstruction actuels. Difix3D+ est une solution générale, un modèle unique compatible avec les représentations NeRF et 3DGS, et il permet une amélioration moyenne de 2 fois du score FID par rapport aux bases de référence tout en maintenant la cohérence 3D.
English
Neural Radiance Fields and 3D Gaussian Splatting have revolutionized 3D
reconstruction and novel-view synthesis task. However, achieving photorealistic
rendering from extreme novel viewpoints remains challenging, as artifacts
persist across representations. In this work, we introduce Difix3D+, a novel
pipeline designed to enhance 3D reconstruction and novel-view synthesis through
single-step diffusion models. At the core of our approach is Difix, a
single-step image diffusion model trained to enhance and remove artifacts in
rendered novel views caused by underconstrained regions of the 3D
representation. Difix serves two critical roles in our pipeline. First, it is
used during the reconstruction phase to clean up pseudo-training views that are
rendered from the reconstruction and then distilled back into 3D. This greatly
enhances underconstrained regions and improves the overall 3D representation
quality. More importantly, Difix also acts as a neural enhancer during
inference, effectively removing residual artifacts arising from imperfect 3D
supervision and the limited capacity of current reconstruction models. Difix3D+
is a general solution, a single model compatible with both NeRF and 3DGS
representations, and it achieves an average 2times improvement in FID score
over baselines while maintaining 3D consistency.Summary
AI-Generated Summary