DreamCraft3D: 부트스트랩 확산 사전을 활용한 계층적 3D 생성
DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior
October 25, 2023
저자: Jingxiang Sun, Bo Zhang, Ruizhi Shao, Lizhen Wang, Wen Liu, Zhenda Xie, Yebin Liu
cs.AI
초록
본 논문에서는 고해상도와 일관성을 갖춘 3D 객체를 생성하는 계층적 3D 콘텐츠 생성 방법인 DreamCraft3D를 소개한다. 우리는 2D 참조 이미지를 활용하여 형상 조각과 텍스처 향상 단계를 안내함으로써 이 문제를 해결한다. 본 연구의 주요 초점은 기존 연구들이 직면한 일관성 문제를 해결하는 것이다. 일관성 있게 렌더링되는 형상을 조각하기 위해, 우리는 뷰 의존적 확산 모델을 통한 점수 증류 샘플링을 수행한다. 이 3D 사전 지식과 여러 훈련 전략은 형상 일관성을 우선시하지만 텍스처 충실도를 희생한다. 이를 보완하기 위해, 우리는 텍스처를 특별히 향상시키기 위한 부트스트랩 점수 증류를 제안한다. 우리는 장면의 증강 렌더링을 통해 개인화된 확산 모델인 Dreambooth를 훈련시켜, 최적화 중인 장면에 대한 3D 지식을 부여한다. 이 3D 인식 확산 사전 지식으로부터의 점수 증류는 장면에 대해 뷰 일관성 있는 안내를 제공한다. 특히, 확산 사전 지식과 3D 장면 표현의 교대 최적화를 통해 상호 강화적인 개선을 달성한다: 최적화된 3D 장면은 장면 특화 확산 모델의 훈련을 돕고, 이 모델은 점점 더 뷰 일관성 있는 3D 최적화 안내를 제공한다. 따라서 최적화는 부트스트랩 방식으로 진행되어 텍스처가 크게 향상된다. 계층적 생성 과정 전반에 걸쳐 맞춤화된 3D 사전 지식을 통해, DreamCraft3D는 사실적인 렌더링과 함께 일관성 있는 3D 객체를 생성하며, 3D 콘텐츠 생성의 최신 기술을 발전시킨다. 코드는 https://github.com/deepseek-ai/DreamCraft3D에서 확인할 수 있다.
English
We present DreamCraft3D, a hierarchical 3D content generation method that
produces high-fidelity and coherent 3D objects. We tackle the problem by
leveraging a 2D reference image to guide the stages of geometry sculpting and
texture boosting. A central focus of this work is to address the consistency
issue that existing works encounter. To sculpt geometries that render
coherently, we perform score distillation sampling via a view-dependent
diffusion model. This 3D prior, alongside several training strategies,
prioritizes the geometry consistency but compromises the texture fidelity. We
further propose Bootstrapped Score Distillation to specifically boost the
texture. We train a personalized diffusion model, Dreambooth, on the augmented
renderings of the scene, imbuing it with 3D knowledge of the scene being
optimized. The score distillation from this 3D-aware diffusion prior provides
view-consistent guidance for the scene. Notably, through an alternating
optimization of the diffusion prior and 3D scene representation, we achieve
mutually reinforcing improvements: the optimized 3D scene aids in training the
scene-specific diffusion model, which offers increasingly view-consistent
guidance for 3D optimization. The optimization is thus bootstrapped and leads
to substantial texture boosting. With tailored 3D priors throughout the
hierarchical generation, DreamCraft3D generates coherent 3D objects with
photorealistic renderings, advancing the state-of-the-art in 3D content
generation. Code available at https://github.com/deepseek-ai/DreamCraft3D.