MetaDreamer : Création efficace de texte vers 3D avec dissociation de la géométrie et de la texture

MetaDreamer: Efficient Text-to-3D Creation With Disentangling Geometry and Texture

November 16, 2023
Auteurs: Lincong Feng, Muyu Wang, Maoyu Wang, Kuo Xu, Xiaoli Liu
cs.AI

Résumé

Les modèles génératifs pour la synthèse d'objets 3D ont connu des avancées significatives grâce à l'intégration de connaissances a priori issues des modèles de diffusion 2D. Néanmoins, des défis persistent, notamment en ce qui concerne les incohérences géométriques multi-vues et les vitesses de génération lentes au sein des cadres existants de synthèse 3D. Cela peut être attribué à deux facteurs : premièrement, le manque de connaissances géométriques a priori abondantes dans l'optimisation, et deuxièmement, le problème d'enchevêtrement entre la géométrie et la texture dans les méthodes conventionnelles de génération 3D. En réponse, nous introduisons MetaDreamer, une approche d'optimisation en deux étapes qui exploite des connaissances a priori riches en 2D et 3D. Dans la première étape, nous nous concentrons sur l'optimisation de la représentation géométrique pour assurer la cohérence multi-vue et la précision des objets 3D. Dans la deuxième étape, nous affinons la géométrie et optimisons la texture, permettant ainsi d'obtenir un objet 3D plus raffiné. En exploitant respectivement les connaissances a priori 2D et 3D dans les deux étapes, nous atténuons efficacement l'interdépendance entre la géométrie et la texture. MetaDreamer établit des objectifs d'optimisation clairs pour chaque étape, ce qui permet de gagner un temps considérable dans le processus de génération 3D. En fin de compte, MetaDreamer peut générer des objets 3D de haute qualité à partir de prompts textuels en moins de 20 minutes, et à notre connaissance, il s'agit de la méthode de génération texte-à-3D la plus efficace. De plus, nous intégrons un contrôle par image dans le processus, améliorant ainsi la contrôlabilité de la génération 3D. Des preuves empiriques étendues confirment que notre méthode est non seulement très efficace, mais qu'elle atteint également un niveau de qualité qui se situe à l'avant-garde des techniques actuelles de génération 3D de pointe.
English
Generative models for 3D object synthesis have seen significant advancements with the incorporation of prior knowledge distilled from 2D diffusion models. Nevertheless, challenges persist in the form of multi-view geometric inconsistencies and slow generation speeds within the existing 3D synthesis frameworks. This can be attributed to two factors: firstly, the deficiency of abundant geometric a priori knowledge in optimization, and secondly, the entanglement issue between geometry and texture in conventional 3D generation methods.In response, we introduce MetaDreammer, a two-stage optimization approach that leverages rich 2D and 3D prior knowledge. In the first stage, our emphasis is on optimizing the geometric representation to ensure multi-view consistency and accuracy of 3D objects. In the second stage, we concentrate on fine-tuning the geometry and optimizing the texture, thereby achieving a more refined 3D object. Through leveraging 2D and 3D prior knowledge in two stages, respectively, we effectively mitigate the interdependence between geometry and texture. MetaDreamer establishes clear optimization objectives for each stage, resulting in significant time savings in the 3D generation process. Ultimately, MetaDreamer can generate high-quality 3D objects based on textual prompts within 20 minutes, and to the best of our knowledge, it is the most efficient text-to-3D generation method. Furthermore, we introduce image control into the process, enhancing the controllability of 3D generation. Extensive empirical evidence confirms that our method is not only highly efficient but also achieves a quality level that is at the forefront of current state-of-the-art 3D generation techniques.
PDF181December 15, 2024