MetaDreamer: Efficiënte Tekst-naar-3D-creatie met Ontvlechting van Geometrie en Textuur
MetaDreamer: Efficient Text-to-3D Creation With Disentangling Geometry and Texture
November 16, 2023
Auteurs: Lincong Feng, Muyu Wang, Maoyu Wang, Kuo Xu, Xiaoli Liu
cs.AI
Samenvatting
Generatieve modellen voor 3D-objectsynthese hebben aanzienlijke vooruitgang geboekt door de integratie van voorkennis gedestilleerd uit 2D-diffusiemodellen. Desalniettemin blijven er uitdagingen bestaan in de vorm van multi-view geometrische inconsistenties en trage generatiesnelheden binnen de bestaande 3D-synthesisframeworks. Dit kan worden toegeschreven aan twee factoren: ten eerste het gebrek aan uitgebreide geometrische a priori kennis tijdens optimalisatie, en ten tweede het verstrengelingsprobleem tussen geometrie en textuur in conventionele 3D-generatiemethoden. Als reactie hierop introduceren we MetaDreammer, een tweestaps optimalisatiebenadering die gebruikmaakt van rijke 2D- en 3D-voorkennis. In de eerste fase ligt de nadruk op het optimaliseren van de geometrische representatie om multi-view consistentie en nauwkeurigheid van 3D-objecten te waarborgen. In de tweede fase concentreren we ons op het finetunen van de geometrie en het optimaliseren van de textuur, waardoor een verfijnder 3D-object wordt bereikt. Door in twee fasen respectievelijk gebruik te maken van 2D- en 3D-voorkennis, verminderen we effectief de onderlinge afhankelijkheid tussen geometrie en textuur. MetaDreammer stelt duidelijke optimalisatiedoelen voor elke fase, wat resulteert in aanzienlijke tijdsbesparingen in het 3D-generatieproces. Uiteindelijk kan MetaDreammer hoogwaardige 3D-objecten genereren op basis van tekstuele prompts binnen 20 minuten, en voor zover wij weten, is het de meest efficiënte tekst-naar-3D-generatiemethode. Bovendien introduceren we beeldcontrole in het proces, wat de beheersbaarheid van 3D-generatie vergroot. Uitgebreid empirisch bewijs bevestigt dat onze methode niet alleen zeer efficiënt is, maar ook een kwaliteitsniveau bereikt dat aan de top staat van de huidige state-of-the-art 3D-generatietechnieken.
English
Generative models for 3D object synthesis have seen significant advancements
with the incorporation of prior knowledge distilled from 2D diffusion models.
Nevertheless, challenges persist in the form of multi-view geometric
inconsistencies and slow generation speeds within the existing 3D synthesis
frameworks. This can be attributed to two factors: firstly, the deficiency of
abundant geometric a priori knowledge in optimization, and secondly, the
entanglement issue between geometry and texture in conventional 3D generation
methods.In response, we introduce MetaDreammer, a two-stage optimization
approach that leverages rich 2D and 3D prior knowledge. In the first stage, our
emphasis is on optimizing the geometric representation to ensure multi-view
consistency and accuracy of 3D objects. In the second stage, we concentrate on
fine-tuning the geometry and optimizing the texture, thereby achieving a more
refined 3D object. Through leveraging 2D and 3D prior knowledge in two stages,
respectively, we effectively mitigate the interdependence between geometry and
texture. MetaDreamer establishes clear optimization objectives for each stage,
resulting in significant time savings in the 3D generation process. Ultimately,
MetaDreamer can generate high-quality 3D objects based on textual prompts
within 20 minutes, and to the best of our knowledge, it is the most efficient
text-to-3D generation method. Furthermore, we introduce image control into the
process, enhancing the controllability of 3D generation. Extensive empirical
evidence confirms that our method is not only highly efficient but also
achieves a quality level that is at the forefront of current state-of-the-art
3D generation techniques.