Difix3D+: Verbesserung von 3D-Rekonstruktionen mit Einzelschritt-Diffusionsmodellen
Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models
March 3, 2025
Autoren: Jay Zhangjie Wu, Yuxuan Zhang, Haithem Turki, Xuanchi Ren, Jun Gao, Mike Zheng Shou, Sanja Fidler, Zan Gojcic, Huan Ling
cs.AI
Zusammenfassung
Neural Radiance Fields und 3D Gaussian Splatting haben die 3D-Rekonstruktion und die Aufgabe der Neuansichtssynthese revolutioniert. Dennoch bleibt die Erzielung fotorealistischer Renderungen aus extremen neuen Blickwinkeln eine Herausforderung, da Artefakte in den Darstellungen bestehen bleiben. In dieser Arbeit stellen wir Difix3D+ vor, eine neuartige Pipeline, die darauf abzielt, die 3D-Rekonstruktion und die Neuansichtssynthese durch Einzelschritt-Diffusionsmodelle zu verbessern. Kern unseres Ansatzes ist Difix, ein Einzelschritt-Bilddiffusionsmodell, das darauf trainiert ist, Artefakte in gerenderten Neuansichten zu verbessern und zu entfernen, die durch unterbestimmte Regionen der 3D-Darstellung verursacht werden. Difix erfüllt zwei kritische Rollen in unserer Pipeline. Erstens wird es während der Rekonstruktionsphase verwendet, um Pseudo-Trainingsansichten zu bereinigen, die aus der Rekonstruktion gerendert und dann wieder in 3D destilliert werden. Dies verbessert stark die unterbestimmten Regionen und steigert die Gesamtqualität der 3D-Darstellung. Noch wichtiger ist, dass Difix auch während der Inferenz als neuronaler Enhancer fungiert und effektiv verbleibende Artefakte entfernt, die aus unvollkommener 3D-Supervision und der begrenzten Kapazität aktueller Rekonstruktionsmodelle resultieren. Difix3D+ ist eine allgemeine Lösung, ein einzelnes Modell, das sowohl mit NeRF- als auch mit 3DGS-Darstellungen kompatibel ist, und es erreicht eine durchschnittliche Verbesserung des FID-Scores um das 2-fache gegenüber den Baselines, während die 3D-Konsistenz gewahrt bleibt.
English
Neural Radiance Fields and 3D Gaussian Splatting have revolutionized 3D
reconstruction and novel-view synthesis task. However, achieving photorealistic
rendering from extreme novel viewpoints remains challenging, as artifacts
persist across representations. In this work, we introduce Difix3D+, a novel
pipeline designed to enhance 3D reconstruction and novel-view synthesis through
single-step diffusion models. At the core of our approach is Difix, a
single-step image diffusion model trained to enhance and remove artifacts in
rendered novel views caused by underconstrained regions of the 3D
representation. Difix serves two critical roles in our pipeline. First, it is
used during the reconstruction phase to clean up pseudo-training views that are
rendered from the reconstruction and then distilled back into 3D. This greatly
enhances underconstrained regions and improves the overall 3D representation
quality. More importantly, Difix also acts as a neural enhancer during
inference, effectively removing residual artifacts arising from imperfect 3D
supervision and the limited capacity of current reconstruction models. Difix3D+
is a general solution, a single model compatible with both NeRF and 3DGS
representations, and it achieves an average 2times improvement in FID score
over baselines while maintaining 3D consistency.Summary
AI-Generated Summary