Difix3D+: Verbetering van 3D-reconstructies met enkelstaps diffusiemodellen
Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models
March 3, 2025
Auteurs: Jay Zhangjie Wu, Yuxuan Zhang, Haithem Turki, Xuanchi Ren, Jun Gao, Mike Zheng Shou, Sanja Fidler, Zan Gojcic, Huan Ling
cs.AI
Samenvatting
Neural Radiance Fields en 3D Gaussian Splatting hebben een revolutie teweeggebracht in 3D-reconstructie en de taak van novel-view synthesis. Het bereiken van fotorealistisch renderen vanuit extreme nieuwe gezichtspunten blijft echter een uitdaging, aangezien artefacten blijven bestaan in verschillende representaties. In dit werk introduceren we Difix3D+, een nieuwe pijplijn ontworpen om 3D-reconstructie en novel-view synthesis te verbeteren via single-step diffusiemodellen. De kern van onze aanpak is Difix, een single-step beelddiffusiemodel getraind om artefacten in gerenderde nieuwe gezichtspunten te verbeteren en te verwijderen, veroorzaakt door onderbepaalde regio's van de 3D-representatie. Difix vervult twee cruciale rollen in onze pijplijn. Ten eerste wordt het gebruikt tijdens de reconstructiefase om pseudo-trainingsbeelden op te schonen die worden gerenderd vanuit de reconstructie en vervolgens teruggedistilleerd in 3D. Dit verbetert sterk de onderbepaalde regio's en verhoogt de algehele kwaliteit van de 3D-representatie. Belangrijker is dat Difix ook fungeert als een neurale versterker tijdens inferentie, waarbij het effectief resterende artefacten verwijdert die voortkomen uit onvolmaakte 3D-supervisie en de beperkte capaciteit van huidige reconstructiemodellen. Difix3D+ is een algemene oplossing, een enkel model compatibel met zowel NeRF- als 3GS-representaties, en het behaalt een gemiddelde 2x verbetering in FID-score ten opzichte van de basislijnen terwijl het 3D-consistentie behoudt.
English
Neural Radiance Fields and 3D Gaussian Splatting have revolutionized 3D
reconstruction and novel-view synthesis task. However, achieving photorealistic
rendering from extreme novel viewpoints remains challenging, as artifacts
persist across representations. In this work, we introduce Difix3D+, a novel
pipeline designed to enhance 3D reconstruction and novel-view synthesis through
single-step diffusion models. At the core of our approach is Difix, a
single-step image diffusion model trained to enhance and remove artifacts in
rendered novel views caused by underconstrained regions of the 3D
representation. Difix serves two critical roles in our pipeline. First, it is
used during the reconstruction phase to clean up pseudo-training views that are
rendered from the reconstruction and then distilled back into 3D. This greatly
enhances underconstrained regions and improves the overall 3D representation
quality. More importantly, Difix also acts as a neural enhancer during
inference, effectively removing residual artifacts arising from imperfect 3D
supervision and the limited capacity of current reconstruction models. Difix3D+
is a general solution, a single model compatible with both NeRF and 3DGS
representations, and it achieves an average 2times improvement in FID score
over baselines while maintaining 3D consistency.Summary
AI-Generated Summary