MetaDreamer: Effiziente Text-zu-3D-Erstellung durch Entkopplung von Geometrie und Textur
MetaDreamer: Efficient Text-to-3D Creation With Disentangling Geometry and Texture
November 16, 2023
Autoren: Lincong Feng, Muyu Wang, Maoyu Wang, Kuo Xu, Xiaoli Liu
cs.AI
Zusammenfassung
Generative Modelle für die 3D-Objektsynthese haben bedeutende Fortschritte durch die Integration von Vorwissen aus 2D-Diffusionsmodellen erzielt. Dennoch bestehen weiterhin Herausforderungen in Form von multi-view geometrischen Inkonsistenzen und langsamen Generierungsgeschwindigkeiten innerhalb bestehender 3D-Synthese-Frameworks. Dies lässt sich auf zwei Faktoren zurückführen: erstens den Mangel an umfangreichem geometrischem Vorwissen bei der Optimierung und zweitens das Verflechtungsproblem zwischen Geometrie und Textur in herkömmlichen 3D-Generierungsmethoden. Als Antwort darauf stellen wir MetaDreamer vor, einen zweistufigen Optimierungsansatz, der umfangreiches 2D- und 3D-Vorwissen nutzt. In der ersten Stufe liegt unser Schwerpunkt auf der Optimierung der geometrischen Darstellung, um die Multi-View-Konsistenz und Genauigkeit von 3D-Objekten sicherzustellen. In der zweiten Stufe konzentrieren wir uns auf die Feinabstimmung der Geometrie und die Optimierung der Textur, wodurch ein verfeinertes 3D-Objekt erreicht wird. Durch die Nutzung von 2D- und 3D-Vorwissen in den jeweiligen Stufen mildern wir effektiv die gegenseitige Abhängigkeit zwischen Geometrie und Textur. MetaDreamer definiert klare Optimierungsziele für jede Stufe, was zu erheblichen Zeiteinsparungen im 3D-Generierungsprozess führt. Letztendlich kann MetaDreamer hochwertige 3D-Objekte basierend auf textuellen Eingaben innerhalb von 20 Minuten generieren, und nach unserem Wissen ist es die effizienteste Text-zu-3D-Generierungsmethode. Darüber hinaus integrieren wir Bildsteuerung in den Prozess, was die Kontrollierbarkeit der 3D-Generierung verbessert. Umfangreiche empirische Belege bestätigen, dass unsere Methode nicht nur äußerst effizient ist, sondern auch eine Qualität erreicht, die an der Spitze der aktuellen State-of-the-Art-3D-Generierungstechniken steht.
English
Generative models for 3D object synthesis have seen significant advancements
with the incorporation of prior knowledge distilled from 2D diffusion models.
Nevertheless, challenges persist in the form of multi-view geometric
inconsistencies and slow generation speeds within the existing 3D synthesis
frameworks. This can be attributed to two factors: firstly, the deficiency of
abundant geometric a priori knowledge in optimization, and secondly, the
entanglement issue between geometry and texture in conventional 3D generation
methods.In response, we introduce MetaDreammer, a two-stage optimization
approach that leverages rich 2D and 3D prior knowledge. In the first stage, our
emphasis is on optimizing the geometric representation to ensure multi-view
consistency and accuracy of 3D objects. In the second stage, we concentrate on
fine-tuning the geometry and optimizing the texture, thereby achieving a more
refined 3D object. Through leveraging 2D and 3D prior knowledge in two stages,
respectively, we effectively mitigate the interdependence between geometry and
texture. MetaDreamer establishes clear optimization objectives for each stage,
resulting in significant time savings in the 3D generation process. Ultimately,
MetaDreamer can generate high-quality 3D objects based on textual prompts
within 20 minutes, and to the best of our knowledge, it is the most efficient
text-to-3D generation method. Furthermore, we introduce image control into the
process, enhancing the controllability of 3D generation. Extensive empirical
evidence confirms that our method is not only highly efficient but also
achieves a quality level that is at the forefront of current state-of-the-art
3D generation techniques.