HiFA: Generazione 3D ad alta fedeltà da testo con guida avanzata basata su diffusione
HiFA: High-fidelity Text-to-3D with Advanced Diffusion Guidance
May 30, 2023
Autori: Joseph Zhu, Peiye Zhuang
cs.AI
Abstract
La sintesi automatica da testo a 3D ha raggiunto progressi significativi attraverso l'ottimizzazione di modelli 3D. I metodi esistenti si basano comunemente su modelli generativi pre-addestrati da testo a immagine, come i modelli di diffusione, che forniscono punteggi per rendering 2D di Neural Radiance Fields (NeRF) e vengono utilizzati per ottimizzare i NeRF. Tuttavia, questi metodi spesso incontrano artefatti e incoerenze tra più viste a causa della loro comprensione limitata della geometria 3D. Per affrontare queste limitazioni, proponiamo una riformulazione della funzione di perdita di ottimizzazione utilizzando il prior di diffusione. Inoltre, introduciamo un nuovo approccio di addestramento che sblocca il potenziale del prior di diffusione. Per migliorare la rappresentazione della geometria 3D, applichiamo una supervisione ausiliaria sulla profondità per le immagini renderizzate da NeRF e regolarizziamo il campo di densità dei NeRF. Esperimenti estensivi dimostrano la superiorità del nostro metodo rispetto ai lavori precedenti, ottenendo un fotorealismo avanzato e una migliore coerenza multi-vista.
English
Automatic text-to-3D synthesis has achieved remarkable advancements through
the optimization of 3D models. Existing methods commonly rely on pre-trained
text-to-image generative models, such as diffusion models, providing scores for
2D renderings of Neural Radiance Fields (NeRFs) and being utilized for
optimizing NeRFs. However, these methods often encounter artifacts and
inconsistencies across multiple views due to their limited understanding of 3D
geometry. To address these limitations, we propose a reformulation of the
optimization loss using the diffusion prior. Furthermore, we introduce a novel
training approach that unlocks the potential of the diffusion prior. To improve
3D geometry representation, we apply auxiliary depth supervision for
NeRF-rendered images and regularize the density field of NeRFs. Extensive
experiments demonstrate the superiority of our method over prior works,
resulting in advanced photo-realism and improved multi-view consistency.