2D와 3D 사전 지식을 활용한 양방향 확산 기반 텍스트-3D 생성
Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D priors
December 7, 2023
저자: Lihe Ding, Shaocong Dong, Zhanpeng Huang, Zibin Wang, Yiyuan Zhang, Kaixiong Gong, Dan Xu, Tianfan Xue
cs.AI
초록
대부분의 3D 생성 연구는 2D 기반 모델을 3D 공간으로 업프로젝션하는 데 초점을 맞추고 있으며, 이는 2D Score Distillation Sampling (SDS) 손실을 최소화하거나 다중 뷰 데이터셋에 대한 미세 조정을 통해 이루어집니다. 명시적인 3D 사전 지식 없이 이러한 방법들은 종종 기하학적 이상 현상과 다중 뷰 불일치를 초래합니다. 최근 연구자들은 3D 데이터셋에 직접 학습함으로써 3D 객체의 진정성을 개선하려고 시도했지만, 3D 데이터셋의 텍스처 다양성이 제한적이어서 저품질의 텍스처 생성이 발생하는 단점이 있습니다. 두 접근법의 장점을 모두 활용하기 위해, 우리는 3D 충실도와 2D 텍스처 풍부함을 각각 보존하기 위해 3D와 2D 확산 과정을 모두 통합한 통합 프레임워크인 Bidirectional Diffusion(BiDiff)을 제안합니다. 또한, 단순한 결합이 일관되지 않은 생성 결과를 초래할 수 있으므로, 우리는 새로운 양방향 가이던스로 이를 연결합니다. 추가적으로, 우리의 방법은 최적화 기반 모델의 초기화로 사용되어 3D 모델의 품질과 최적화의 효율성을 더욱 개선할 수 있으며, 생성 과정을 3.4시간에서 20분으로 단축합니다. 실험 결과는 우리의 모델이 고품질, 다양성, 확장성을 갖춘 3D 생성을 달성함을 보여줍니다. 프로젝트 웹사이트: https://bidiff.github.io/.
English
Most 3D generation research focuses on up-projecting 2D foundation models
into the 3D space, either by minimizing 2D Score Distillation Sampling (SDS)
loss or fine-tuning on multi-view datasets. Without explicit 3D priors, these
methods often lead to geometric anomalies and multi-view inconsistency.
Recently, researchers have attempted to improve the genuineness of 3D objects
by directly training on 3D datasets, albeit at the cost of low-quality texture
generation due to the limited texture diversity in 3D datasets. To harness the
advantages of both approaches, we propose Bidirectional Diffusion(BiDiff), a
unified framework that incorporates both a 3D and a 2D diffusion process, to
preserve both 3D fidelity and 2D texture richness, respectively. Moreover, as a
simple combination may yield inconsistent generation results, we further bridge
them with novel bidirectional guidance. In addition, our method can be used as
an initialization of optimization-based models to further improve the quality
of 3D model and efficiency of optimization, reducing the generation process
from 3.4 hours to 20 minutes. Experimental results have shown that our model
achieves high-quality, diverse, and scalable 3D generation. Project website:
https://bidiff.github.io/.