MetaDreamer: Creazione Efficiente da Testo a 3D con Separazione di Geometria e Texture
MetaDreamer: Efficient Text-to-3D Creation With Disentangling Geometry and Texture
November 16, 2023
Autori: Lincong Feng, Muyu Wang, Maoyu Wang, Kuo Xu, Xiaoli Liu
cs.AI
Abstract
I modelli generativi per la sintesi di oggetti 3D hanno registrato progressi significativi grazie all'incorporazione di conoscenze pregliate distillate da modelli di diffusione 2D. Tuttavia, persistono sfide legate a incoerenze geometriche multi-vista e a velocità di generazione lenta all'interno degli attuali framework di sintesi 3D. Ciò può essere attribuito a due fattori: in primo luogo, la carenza di abbondanti conoscenze geometriche a priori nell'ottimizzazione, e in secondo luogo, il problema di intreccio tra geometria e texture nei metodi convenzionali di generazione 3D. In risposta, introduciamo MetaDreammer, un approccio di ottimizzazione in due fasi che sfrutta ricche conoscenze pregliate 2D e 3D. Nella prima fase, ci concentriamo sull'ottimizzazione della rappresentazione geometrica per garantire coerenza multi-vista e accuratezza degli oggetti 3D. Nella seconda fase, ci focalizziamo sull'affinamento della geometria e sull'ottimizzazione della texture, ottenendo così un oggetto 3D più raffinato. Sfruttando rispettivamente le conoscenze pregliate 2D e 3D nelle due fasi, mitigiamo efficacemente l'interdipendenza tra geometria e texture. MetaDreamer stabilisce obiettivi di ottimizzazione chiari per ciascuna fase, consentendo un risparmio significativo di tempo nel processo di generazione 3D. In definitiva, MetaDreamer è in grado di generare oggetti 3D di alta qualità basati su prompt testuali in meno di 20 minuti, e, per quanto ne sappiamo, rappresenta il metodo più efficiente per la generazione da testo a 3D. Inoltre, introduciamo il controllo tramite immagini nel processo, migliorando la controllabilità della generazione 3D. Ampia evidenza empirica conferma che il nostro metodo non solo è altamente efficiente, ma raggiunge anche un livello di qualità all'avanguardia rispetto alle attuali tecniche di generazione 3D state-of-the-art.
English
Generative models for 3D object synthesis have seen significant advancements
with the incorporation of prior knowledge distilled from 2D diffusion models.
Nevertheless, challenges persist in the form of multi-view geometric
inconsistencies and slow generation speeds within the existing 3D synthesis
frameworks. This can be attributed to two factors: firstly, the deficiency of
abundant geometric a priori knowledge in optimization, and secondly, the
entanglement issue between geometry and texture in conventional 3D generation
methods.In response, we introduce MetaDreammer, a two-stage optimization
approach that leverages rich 2D and 3D prior knowledge. In the first stage, our
emphasis is on optimizing the geometric representation to ensure multi-view
consistency and accuracy of 3D objects. In the second stage, we concentrate on
fine-tuning the geometry and optimizing the texture, thereby achieving a more
refined 3D object. Through leveraging 2D and 3D prior knowledge in two stages,
respectively, we effectively mitigate the interdependence between geometry and
texture. MetaDreamer establishes clear optimization objectives for each stage,
resulting in significant time savings in the 3D generation process. Ultimately,
MetaDreamer can generate high-quality 3D objects based on textual prompts
within 20 minutes, and to the best of our knowledge, it is the most efficient
text-to-3D generation method. Furthermore, we introduce image control into the
process, enhancing the controllability of 3D generation. Extensive empirical
evidence confirms that our method is not only highly efficient but also
achieves a quality level that is at the forefront of current state-of-the-art
3D generation techniques.