MetaDreamer: Creación eficiente de texto a 3D con separación de geometría y textura
MetaDreamer: Efficient Text-to-3D Creation With Disentangling Geometry and Texture
November 16, 2023
Autores: Lincong Feng, Muyu Wang, Maoyu Wang, Kuo Xu, Xiaoli Liu
cs.AI
Resumen
Los modelos generativos para la síntesis de objetos 3D han experimentado avances significativos con la incorporación de conocimiento previo extraído de modelos de difusión 2D. Sin embargo, persisten desafíos en forma de inconsistencias geométricas multi-vista y velocidades de generación lentas dentro de los marcos de síntesis 3D existentes. Esto puede atribuirse a dos factores: en primer lugar, la falta de abundante conocimiento geométrico a priori en la optimización, y en segundo lugar, el problema de entrelazamiento entre geometría y textura en los métodos convencionales de generación 3D. En respuesta, presentamos MetaDreamer, un enfoque de optimización en dos etapas que aprovecha un rico conocimiento previo 2D y 3D. En la primera etapa, nuestro énfasis está en optimizar la representación geométrica para garantizar la consistencia multi-vista y la precisión de los objetos 3D. En la segunda etapa, nos concentramos en ajustar finamente la geometría y optimizar la textura, logrando así un objeto 3D más refinado. Al aprovechar el conocimiento previo 2D y 3D en dos etapas respectivamente, mitigamos efectivamente la interdependencia entre geometría y textura. MetaDreamer establece objetivos de optimización claros para cada etapa, lo que resulta en un ahorro significativo de tiempo en el proceso de generación 3D. En última instancia, MetaDreamer puede generar objetos 3D de alta calidad basados en indicaciones textuales en menos de 20 minutos, y, hasta donde sabemos, es el método más eficiente para la generación de texto a 3D. Además, introducimos control de imagen en el proceso, mejorando la controlabilidad de la generación 3D. Evidencia empírica extensa confirma que nuestro método no solo es altamente eficiente, sino que también alcanza un nivel de calidad que está a la vanguardia de las técnicas actuales de generación 3D de última generación.
English
Generative models for 3D object synthesis have seen significant advancements
with the incorporation of prior knowledge distilled from 2D diffusion models.
Nevertheless, challenges persist in the form of multi-view geometric
inconsistencies and slow generation speeds within the existing 3D synthesis
frameworks. This can be attributed to two factors: firstly, the deficiency of
abundant geometric a priori knowledge in optimization, and secondly, the
entanglement issue between geometry and texture in conventional 3D generation
methods.In response, we introduce MetaDreammer, a two-stage optimization
approach that leverages rich 2D and 3D prior knowledge. In the first stage, our
emphasis is on optimizing the geometric representation to ensure multi-view
consistency and accuracy of 3D objects. In the second stage, we concentrate on
fine-tuning the geometry and optimizing the texture, thereby achieving a more
refined 3D object. Through leveraging 2D and 3D prior knowledge in two stages,
respectively, we effectively mitigate the interdependence between geometry and
texture. MetaDreamer establishes clear optimization objectives for each stage,
resulting in significant time savings in the 3D generation process. Ultimately,
MetaDreamer can generate high-quality 3D objects based on textual prompts
within 20 minutes, and to the best of our knowledge, it is the most efficient
text-to-3D generation method. Furthermore, we introduce image control into the
process, enhancing the controllability of 3D generation. Extensive empirical
evidence confirms that our method is not only highly efficient but also
achieves a quality level that is at the forefront of current state-of-the-art
3D generation techniques.