Sherpa3D : Amélioration de la génération texte-3D haute fidélité via un modèle 3D grossier
Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D Prior
December 11, 2023
Auteurs: Fangfu Liu, Diankun Wu, Yi Wei, Yongming Rao, Yueqi Duan
cs.AI
Résumé
Récemment, la création de contenu 3D à partir de prompts textuels a démontré des progrès remarquables grâce à l'utilisation de modèles de diffusion 2D et 3D. Bien que les modèles de diffusion 3D garantissent une excellente cohérence multi-vues, leur capacité à générer des assets 3D de haute qualité et diversifiés est limitée par la rareté des données 3D. En revanche, les modèles de diffusion 2D adoptent une approche de distillation qui permet une généralisation excellente et des détails riches sans nécessiter de données 3D. Cependant, les méthodes de projection 2D souffrent d'une ambiguïté inhérente indépendante de la vue, conduisant à des problèmes sérieux de multi-faces Janus, où les prompts textuels ne parviennent pas à fournir un guidage suffisant pour obtenir des résultats 3D cohérents. Plutôt que de réentraîner un modèle coûteux sensible à la vue, nous étudions comment exploiter pleinement des connaissances 3D grossières facilement accessibles pour améliorer les prompts et guider l'optimisation de la projection 2D en vue d'un raffinement. Dans cet article, nous proposons Sherpa3D, un nouveau framework texte-à-3D qui atteint simultanément une haute fidélité, une grande généralisabilité et une cohérence géométrique. Plus précisément, nous concevons une paire de stratégies de guidage dérivées de l'a priori 3D grossier généré par le modèle de diffusion 3D : un guidage structurel pour la fidélité géométrique et un guidage sémantique pour la cohérence 3D. En utilisant ces deux types de guidage, le modèle de diffusion 2D enrichit le contenu 3D avec des résultats diversifiés et de haute qualité. Des expériences approfondies montrent la supériorité de notre Sherpa3D par rapport aux méthodes état-de-l'art en texte-à-3D en termes de qualité et de cohérence 3D.
English
Recently, 3D content creation from text prompts has demonstrated remarkable
progress by utilizing 2D and 3D diffusion models. While 3D diffusion models
ensure great multi-view consistency, their ability to generate high-quality and
diverse 3D assets is hindered by the limited 3D data. In contrast, 2D diffusion
models find a distillation approach that achieves excellent generalization and
rich details without any 3D data. However, 2D lifting methods suffer from
inherent view-agnostic ambiguity thereby leading to serious multi-face Janus
issues, where text prompts fail to provide sufficient guidance to learn
coherent 3D results. Instead of retraining a costly viewpoint-aware model, we
study how to fully exploit easily accessible coarse 3D knowledge to enhance the
prompts and guide 2D lifting optimization for refinement. In this paper, we
propose Sherpa3D, a new text-to-3D framework that achieves high-fidelity,
generalizability, and geometric consistency simultaneously. Specifically, we
design a pair of guiding strategies derived from the coarse 3D prior generated
by the 3D diffusion model: a structural guidance for geometric fidelity and a
semantic guidance for 3D coherence. Employing the two types of guidance, the 2D
diffusion model enriches the 3D content with diversified and high-quality
results. Extensive experiments show the superiority of our Sherpa3D over the
state-of-the-art text-to-3D methods in terms of quality and 3D consistency.