MetaDreamer: 기하학과 텍스처 분리를 통한 효율적인 텍스트-3D 생성
MetaDreamer: Efficient Text-to-3D Creation With Disentangling Geometry and Texture
November 16, 2023
저자: Lincong Feng, Muyu Wang, Maoyu Wang, Kuo Xu, Xiaoli Liu
cs.AI
초록
3D 객체 합성을 위한 생성 모델은 2D 확산 모델에서 추출된 사전 지식을 통합함으로써 상당한 발전을 이루었습니다. 그러나 기존 3D 합성 프레임워크 내에서 다중 뷰 기하학적 불일치와 느린 생성 속도와 같은 문제점이 여전히 존재합니다. 이는 두 가지 요인에 기인합니다: 첫째, 최적화 과정에서 풍부한 기하학적 사전 지식의 부족, 둘째, 전통적인 3D 생성 방법에서 기하학과 텍스처 간의 얽힘 문제입니다. 이에 대응하여, 우리는 풍부한 2D 및 3D 사전 지식을 활용하는 두 단계 최적화 접근법인 MetaDreammer를 소개합니다. 첫 번째 단계에서는 다중 뷰 일관성과 3D 객체의 정확성을 보장하기 위해 기하학적 표현을 최적화하는 데 중점을 둡니다. 두 번째 단계에서는 기하학을 미세 조정하고 텍스처를 최적화하여 더욱 정교한 3D 객체를 생성합니다. 두 단계에서 각각 2D 및 3D 사전 지식을 활용함으로써, 우리는 기하학과 텍스처 간의 상호 의존성을 효과적으로 완화합니다. MetaDreamer는 각 단계에 대해 명확한 최적화 목표를 설정함으로써 3D 생성 과정에서 상당한 시간을 절약합니다. 결과적으로, MetaDreamer는 텍스트 프롬프트를 기반으로 20분 이내에 고품질의 3D 객체를 생성할 수 있으며, 우리가 아는 한 가장 효율적인 텍스트-투-3D 생성 방법입니다. 또한, 우리는 3D 생성의 제어 가능성을 향상시키기 위해 이미지 제어를 도입했습니다. 광범위한 실험 결과는 우리의 방법이 매우 효율적일 뿐만 아니라 현재 최첨단 3D 생성 기술의 최고 수준의 품질을 달성함을 확인시켜 줍니다.
English
Generative models for 3D object synthesis have seen significant advancements
with the incorporation of prior knowledge distilled from 2D diffusion models.
Nevertheless, challenges persist in the form of multi-view geometric
inconsistencies and slow generation speeds within the existing 3D synthesis
frameworks. This can be attributed to two factors: firstly, the deficiency of
abundant geometric a priori knowledge in optimization, and secondly, the
entanglement issue between geometry and texture in conventional 3D generation
methods.In response, we introduce MetaDreammer, a two-stage optimization
approach that leverages rich 2D and 3D prior knowledge. In the first stage, our
emphasis is on optimizing the geometric representation to ensure multi-view
consistency and accuracy of 3D objects. In the second stage, we concentrate on
fine-tuning the geometry and optimizing the texture, thereby achieving a more
refined 3D object. Through leveraging 2D and 3D prior knowledge in two stages,
respectively, we effectively mitigate the interdependence between geometry and
texture. MetaDreamer establishes clear optimization objectives for each stage,
resulting in significant time savings in the 3D generation process. Ultimately,
MetaDreamer can generate high-quality 3D objects based on textual prompts
within 20 minutes, and to the best of our knowledge, it is the most efficient
text-to-3D generation method. Furthermore, we introduce image control into the
process, enhancing the controllability of 3D generation. Extensive empirical
evidence confirms that our method is not only highly efficient but also
achieves a quality level that is at the forefront of current state-of-the-art
3D generation techniques.