MetaDreamer: Criação Eficiente de Texto para 3D com Separação de Geometria e Textura
MetaDreamer: Efficient Text-to-3D Creation With Disentangling Geometry and Texture
November 16, 2023
Autores: Lincong Feng, Muyu Wang, Maoyu Wang, Kuo Xu, Xiaoli Liu
cs.AI
Resumo
Modelos generativos para síntese de objetos 3D têm apresentado avanços significativos com a incorporação de conhecimento prévio extraído de modelos de difusão 2D. No entanto, desafios persistem na forma de inconsistências geométricas multi-visão e velocidades lentas de geração dentro dos frameworks existentes de síntese 3D. Isso pode ser atribuído a dois fatores: primeiro, a deficiência de conhecimento geométrico a priori abundante na otimização, e segundo, o problema de entrelaçamento entre geometria e textura nos métodos convencionais de geração 3D. Em resposta, introduzimos o MetaDreammer, uma abordagem de otimização em duas etapas que aproveita o rico conhecimento prévio 2D e 3D. Na primeira etapa, nosso foco é otimizar a representação geométrica para garantir consistência multi-visão e precisão dos objetos 3D. Na segunda etapa, concentramo-nos em ajustar finamente a geometria e otimizar a textura, alcançando assim um objeto 3D mais refinado. Ao aproveitar o conhecimento prévio 2D e 3D em duas etapas, respectivamente, mitigamos efetivamente a interdependência entre geometria e textura. O MetaDreammer estabelece objetivos claros de otimização para cada etapa, resultando em uma economia significativa de tempo no processo de geração 3D. Por fim, o MetaDreamer pode gerar objetos 3D de alta qualidade com base em prompts textuais em até 20 minutos e, até onde sabemos, é o método mais eficiente de geração de texto para 3D. Além disso, introduzimos o controle por imagem no processo, aumentando a controlabilidade da geração 3D. Evidências empíricas extensas confirmam que nosso método não é apenas altamente eficiente, mas também alcança um nível de qualidade que está na vanguarda das técnicas atuais de geração 3D state-of-the-art.
English
Generative models for 3D object synthesis have seen significant advancements
with the incorporation of prior knowledge distilled from 2D diffusion models.
Nevertheless, challenges persist in the form of multi-view geometric
inconsistencies and slow generation speeds within the existing 3D synthesis
frameworks. This can be attributed to two factors: firstly, the deficiency of
abundant geometric a priori knowledge in optimization, and secondly, the
entanglement issue between geometry and texture in conventional 3D generation
methods.In response, we introduce MetaDreammer, a two-stage optimization
approach that leverages rich 2D and 3D prior knowledge. In the first stage, our
emphasis is on optimizing the geometric representation to ensure multi-view
consistency and accuracy of 3D objects. In the second stage, we concentrate on
fine-tuning the geometry and optimizing the texture, thereby achieving a more
refined 3D object. Through leveraging 2D and 3D prior knowledge in two stages,
respectively, we effectively mitigate the interdependence between geometry and
texture. MetaDreamer establishes clear optimization objectives for each stage,
resulting in significant time savings in the 3D generation process. Ultimately,
MetaDreamer can generate high-quality 3D objects based on textual prompts
within 20 minutes, and to the best of our knowledge, it is the most efficient
text-to-3D generation method. Furthermore, we introduce image control into the
process, enhancing the controllability of 3D generation. Extensive empirical
evidence confirms that our method is not only highly efficient but also
achieves a quality level that is at the forefront of current state-of-the-art
3D generation techniques.