HiFA: Generazione 3D ad alta fedeltà da testo con guida avanzata basata su diffusione

Abstract

La sintesi automatica da testo a 3D ha raggiunto progressi significativi attraverso l'ottimizzazione di modelli 3D. I metodi esistenti si basano comunemente su modelli generativi pre-addestrati da testo a immagine, come i modelli di diffusione, che forniscono punteggi per rendering 2D di Neural Radiance Fields (NeRF) e vengono utilizzati per ottimizzare i NeRF. Tuttavia, questi metodi spesso incontrano artefatti e incoerenze tra più viste a causa della loro comprensione limitata della geometria 3D. Per affrontare queste limitazioni, proponiamo una riformulazione della funzione di perdita di ottimizzazione utilizzando il prior di diffusione. Inoltre, introduciamo un nuovo approccio di addestramento che sblocca il potenziale del prior di diffusione. Per migliorare la rappresentazione della geometria 3D, applichiamo una supervisione ausiliaria sulla profondità per le immagini renderizzate da NeRF e regolarizziamo il campo di densità dei NeRF. Esperimenti estensivi dimostrano la superiorità del nostro metodo rispetto ai lavori precedenti, ottenendo un fotorealismo avanzato e una migliore coerenza multi-vista.

English

Automatic text-to-3D synthesis has achieved remarkable advancements through the optimization of 3D models. Existing methods commonly rely on pre-trained text-to-image generative models, such as diffusion models, providing scores for 2D renderings of Neural Radiance Fields (NeRFs) and being utilized for optimizing NeRFs. However, these methods often encounter artifacts and inconsistencies across multiple views due to their limited understanding of 3D geometry. To address these limitations, we propose a reformulation of the optimization loss using the diffusion prior. Furthermore, we introduce a novel training approach that unlocks the potential of the diffusion prior. To improve 3D geometry representation, we apply auxiliary depth supervision for NeRF-rendered images and regularize the density field of NeRFs. Extensive experiments demonstrate the superiority of our method over prior works, resulting in advanced photo-realism and improved multi-view consistency.

HiFA: Generazione 3D ad alta fedeltà da testo con guida avanzata basata su diffusione

HiFA: High-fidelity Text-to-3D with Advanced Diffusion Guidance

Abstract

Support