Difix3D+: Miglioramento delle ricostruzioni 3D con modelli di diffusione a singolo passaggio
Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models
March 3, 2025
Autori: Jay Zhangjie Wu, Yuxuan Zhang, Haithem Turki, Xuanchi Ren, Jun Gao, Mike Zheng Shou, Sanja Fidler, Zan Gojcic, Huan Ling
cs.AI
Abstract
I Neural Radiance Fields e il 3D Gaussian Splatting hanno rivoluzionato la ricostruzione 3D e il compito di sintesi di nuove viste. Tuttavia, ottenere rendering fotorealistici da punti di vista estremamente nuovi rimane una sfida, poiché artefatti persistono tra le diverse rappresentazioni. In questo lavoro, introduciamo Difix3D+, una nuova pipeline progettata per migliorare la ricostruzione 3D e la sintesi di nuove viste attraverso modelli di diffusione a singolo passo. Al centro del nostro approccio c'è Difix, un modello di diffusione di immagini a singolo passo addestrato per migliorare e rimuovere gli artefatti nelle viste renderizzate causati da regioni sottoconvincolate della rappresentazione 3D. Difix svolge due ruoli critici nella nostra pipeline. In primo luogo, viene utilizzato durante la fase di ricostruzione per ripulire le pseudo-viste di addestramento che vengono renderizzate dalla ricostruzione e poi distillate nuovamente in 3D. Ciò migliora notevolmente le regioni sottoconvincolate e aumenta la qualità complessiva della rappresentazione 3D. Ancora più importante, Difix agisce anche come potenziatore neurale durante l'inferenza, rimuovendo efficacemente gli artefatti residui derivanti da una supervisione 3D imperfetta e dalla capacità limitata degli attuali modelli di ricostruzione. Difix3D+ è una soluzione generale, un singolo modello compatibile sia con le rappresentazioni NeRF che con il 3DGS, e raggiunge un miglioramento medio di 2 volte nel punteggio FID rispetto ai baseline, mantenendo la coerenza 3D.
English
Neural Radiance Fields and 3D Gaussian Splatting have revolutionized 3D
reconstruction and novel-view synthesis task. However, achieving photorealistic
rendering from extreme novel viewpoints remains challenging, as artifacts
persist across representations. In this work, we introduce Difix3D+, a novel
pipeline designed to enhance 3D reconstruction and novel-view synthesis through
single-step diffusion models. At the core of our approach is Difix, a
single-step image diffusion model trained to enhance and remove artifacts in
rendered novel views caused by underconstrained regions of the 3D
representation. Difix serves two critical roles in our pipeline. First, it is
used during the reconstruction phase to clean up pseudo-training views that are
rendered from the reconstruction and then distilled back into 3D. This greatly
enhances underconstrained regions and improves the overall 3D representation
quality. More importantly, Difix also acts as a neural enhancer during
inference, effectively removing residual artifacts arising from imperfect 3D
supervision and the limited capacity of current reconstruction models. Difix3D+
is a general solution, a single model compatible with both NeRF and 3DGS
representations, and it achieves an average 2times improvement in FID score
over baselines while maintaining 3D consistency.Summary
AI-Generated Summary