MetaDreamer : Création efficace de texte vers 3D avec dissociation de la géométrie et de la texture
MetaDreamer: Efficient Text-to-3D Creation With Disentangling Geometry and Texture
November 16, 2023
Auteurs: Lincong Feng, Muyu Wang, Maoyu Wang, Kuo Xu, Xiaoli Liu
cs.AI
Résumé
Les modèles génératifs pour la synthèse d'objets 3D ont connu des avancées significatives grâce à l'intégration de connaissances a priori issues des modèles de diffusion 2D. Néanmoins, des défis persistent, notamment en ce qui concerne les incohérences géométriques multi-vues et les vitesses de génération lentes au sein des cadres existants de synthèse 3D. Cela peut être attribué à deux facteurs : premièrement, le manque de connaissances géométriques a priori abondantes dans l'optimisation, et deuxièmement, le problème d'enchevêtrement entre la géométrie et la texture dans les méthodes conventionnelles de génération 3D. En réponse, nous introduisons MetaDreamer, une approche d'optimisation en deux étapes qui exploite des connaissances a priori riches en 2D et 3D. Dans la première étape, nous nous concentrons sur l'optimisation de la représentation géométrique pour assurer la cohérence multi-vue et la précision des objets 3D. Dans la deuxième étape, nous affinons la géométrie et optimisons la texture, permettant ainsi d'obtenir un objet 3D plus raffiné. En exploitant respectivement les connaissances a priori 2D et 3D dans les deux étapes, nous atténuons efficacement l'interdépendance entre la géométrie et la texture. MetaDreamer établit des objectifs d'optimisation clairs pour chaque étape, ce qui permet de gagner un temps considérable dans le processus de génération 3D. En fin de compte, MetaDreamer peut générer des objets 3D de haute qualité à partir de prompts textuels en moins de 20 minutes, et à notre connaissance, il s'agit de la méthode de génération texte-à-3D la plus efficace. De plus, nous intégrons un contrôle par image dans le processus, améliorant ainsi la contrôlabilité de la génération 3D. Des preuves empiriques étendues confirment que notre méthode est non seulement très efficace, mais qu'elle atteint également un niveau de qualité qui se situe à l'avant-garde des techniques actuelles de génération 3D de pointe.
English
Generative models for 3D object synthesis have seen significant advancements
with the incorporation of prior knowledge distilled from 2D diffusion models.
Nevertheless, challenges persist in the form of multi-view geometric
inconsistencies and slow generation speeds within the existing 3D synthesis
frameworks. This can be attributed to two factors: firstly, the deficiency of
abundant geometric a priori knowledge in optimization, and secondly, the
entanglement issue between geometry and texture in conventional 3D generation
methods.In response, we introduce MetaDreammer, a two-stage optimization
approach that leverages rich 2D and 3D prior knowledge. In the first stage, our
emphasis is on optimizing the geometric representation to ensure multi-view
consistency and accuracy of 3D objects. In the second stage, we concentrate on
fine-tuning the geometry and optimizing the texture, thereby achieving a more
refined 3D object. Through leveraging 2D and 3D prior knowledge in two stages,
respectively, we effectively mitigate the interdependence between geometry and
texture. MetaDreamer establishes clear optimization objectives for each stage,
resulting in significant time savings in the 3D generation process. Ultimately,
MetaDreamer can generate high-quality 3D objects based on textual prompts
within 20 minutes, and to the best of our knowledge, it is the most efficient
text-to-3D generation method. Furthermore, we introduce image control into the
process, enhancing the controllability of 3D generation. Extensive empirical
evidence confirms that our method is not only highly efficient but also
achieves a quality level that is at the forefront of current state-of-the-art
3D generation techniques.