HiFA : Génération 3D haute fidélité à partir de texte avec guidage avancé par diffusion
HiFA: High-fidelity Text-to-3D with Advanced Diffusion Guidance
May 30, 2023
Auteurs: Joseph Zhu, Peiye Zhuang
cs.AI
Résumé
La synthèse automatique de texte en 3D a réalisé des avancées remarquables grâce à l'optimisation des modèles 3D. Les méthodes existantes reposent couramment sur des modèles génératifs texte-image pré-entraînés, tels que les modèles de diffusion, qui fournissent des scores pour les rendus 2D des champs de radiance neuronaux (NeRFs) et sont utilisés pour optimiser ces NeRFs. Cependant, ces méthodes rencontrent souvent des artefacts et des incohérences entre plusieurs vues en raison de leur compréhension limitée de la géométrie 3D. Pour pallier ces limitations, nous proposons une reformulation de la fonction de perte d'optimisation en utilisant le prior de diffusion. De plus, nous introduisons une nouvelle approche d'entraînement qui libère le potentiel du prior de diffusion. Pour améliorer la représentation de la géométrie 3D, nous appliquons une supervision auxiliaire de profondeur pour les images rendues par NeRF et régularisons le champ de densité des NeRFs. Des expériences approfondies démontrent la supériorité de notre méthode par rapport aux travaux antérieurs, aboutissant à un photo-réalisme avancé et une meilleure cohérence multi-vue.
English
Automatic text-to-3D synthesis has achieved remarkable advancements through
the optimization of 3D models. Existing methods commonly rely on pre-trained
text-to-image generative models, such as diffusion models, providing scores for
2D renderings of Neural Radiance Fields (NeRFs) and being utilized for
optimizing NeRFs. However, these methods often encounter artifacts and
inconsistencies across multiple views due to their limited understanding of 3D
geometry. To address these limitations, we propose a reformulation of the
optimization loss using the diffusion prior. Furthermore, we introduce a novel
training approach that unlocks the potential of the diffusion prior. To improve
3D geometry representation, we apply auxiliary depth supervision for
NeRF-rendered images and regularize the density field of NeRFs. Extensive
experiments demonstrate the superiority of our method over prior works,
resulting in advanced photo-realism and improved multi-view consistency.