MetaDreamer: Creación eficiente de texto a 3D con separación de geometría y textura

Resumen

Los modelos generativos para la síntesis de objetos 3D han experimentado avances significativos con la incorporación de conocimiento previo extraído de modelos de difusión 2D. Sin embargo, persisten desafíos en forma de inconsistencias geométricas multi-vista y velocidades de generación lentas dentro de los marcos de síntesis 3D existentes. Esto puede atribuirse a dos factores: en primer lugar, la falta de abundante conocimiento geométrico a priori en la optimización, y en segundo lugar, el problema de entrelazamiento entre geometría y textura en los métodos convencionales de generación 3D. En respuesta, presentamos MetaDreamer, un enfoque de optimización en dos etapas que aprovecha un rico conocimiento previo 2D y 3D. En la primera etapa, nuestro énfasis está en optimizar la representación geométrica para garantizar la consistencia multi-vista y la precisión de los objetos 3D. En la segunda etapa, nos concentramos en ajustar finamente la geometría y optimizar la textura, logrando así un objeto 3D más refinado. Al aprovechar el conocimiento previo 2D y 3D en dos etapas respectivamente, mitigamos efectivamente la interdependencia entre geometría y textura. MetaDreamer establece objetivos de optimización claros para cada etapa, lo que resulta en un ahorro significativo de tiempo en el proceso de generación 3D. En última instancia, MetaDreamer puede generar objetos 3D de alta calidad basados en indicaciones textuales en menos de 20 minutos, y, hasta donde sabemos, es el método más eficiente para la generación de texto a 3D. Además, introducimos control de imagen en el proceso, mejorando la controlabilidad de la generación 3D. Evidencia empírica extensa confirma que nuestro método no solo es altamente eficiente, sino que también alcanza un nivel de calidad que está a la vanguardia de las técnicas actuales de generación 3D de última generación.

English

Generative models for 3D object synthesis have seen significant advancements with the incorporation of prior knowledge distilled from 2D diffusion models. Nevertheless, challenges persist in the form of multi-view geometric inconsistencies and slow generation speeds within the existing 3D synthesis frameworks. This can be attributed to two factors: firstly, the deficiency of abundant geometric a priori knowledge in optimization, and secondly, the entanglement issue between geometry and texture in conventional 3D generation methods.In response, we introduce MetaDreammer, a two-stage optimization approach that leverages rich 2D and 3D prior knowledge. In the first stage, our emphasis is on optimizing the geometric representation to ensure multi-view consistency and accuracy of 3D objects. In the second stage, we concentrate on fine-tuning the geometry and optimizing the texture, thereby achieving a more refined 3D object. Through leveraging 2D and 3D prior knowledge in two stages, respectively, we effectively mitigate the interdependence between geometry and texture. MetaDreamer establishes clear optimization objectives for each stage, resulting in significant time savings in the 3D generation process. Ultimately, MetaDreamer can generate high-quality 3D objects based on textual prompts within 20 minutes, and to the best of our knowledge, it is the most efficient text-to-3D generation method. Furthermore, we introduce image control into the process, enhancing the controllability of 3D generation. Extensive empirical evidence confirms that our method is not only highly efficient but also achieves a quality level that is at the forefront of current state-of-the-art 3D generation techniques.

MetaDreamer: Creación eficiente de texto a 3D con separación de geometría y textura

MetaDreamer: Efficient Text-to-3D Creation With Disentangling Geometry and Texture

Resumen

Support