HiFA : Génération 3D haute fidélité à partir de texte avec guidage avancé par diffusion

papers.abstract

La synthèse automatique de texte en 3D a réalisé des avancées remarquables grâce à l'optimisation des modèles 3D. Les méthodes existantes reposent couramment sur des modèles génératifs texte-image pré-entraînés, tels que les modèles de diffusion, qui fournissent des scores pour les rendus 2D des champs de radiance neuronaux (NeRFs) et sont utilisés pour optimiser ces NeRFs. Cependant, ces méthodes rencontrent souvent des artefacts et des incohérences entre plusieurs vues en raison de leur compréhension limitée de la géométrie 3D. Pour pallier ces limitations, nous proposons une reformulation de la fonction de perte d'optimisation en utilisant le prior de diffusion. De plus, nous introduisons une nouvelle approche d'entraînement qui libère le potentiel du prior de diffusion. Pour améliorer la représentation de la géométrie 3D, nous appliquons une supervision auxiliaire de profondeur pour les images rendues par NeRF et régularisons le champ de densité des NeRFs. Des expériences approfondies démontrent la supériorité de notre méthode par rapport aux travaux antérieurs, aboutissant à un photo-réalisme avancé et une meilleure cohérence multi-vue.

English

Automatic text-to-3D synthesis has achieved remarkable advancements through the optimization of 3D models. Existing methods commonly rely on pre-trained text-to-image generative models, such as diffusion models, providing scores for 2D renderings of Neural Radiance Fields (NeRFs) and being utilized for optimizing NeRFs. However, these methods often encounter artifacts and inconsistencies across multiple views due to their limited understanding of 3D geometry. To address these limitations, we propose a reformulation of the optimization loss using the diffusion prior. Furthermore, we introduce a novel training approach that unlocks the potential of the diffusion prior. To improve 3D geometry representation, we apply auxiliary depth supervision for NeRF-rendered images and regularize the density field of NeRFs. Extensive experiments demonstrate the superiority of our method over prior works, resulting in advanced photo-realism and improved multi-view consistency.

HiFA : Génération 3D haute fidélité à partir de texte avec guidage avancé par diffusion

HiFA: High-fidelity Text-to-3D with Advanced Diffusion Guidance

papers.abstract

Support