DreamCraft3D: Hierarchische 3D-Generierung mit Bootstrapped-Diffusion-Prior
DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior
October 25, 2023
Autoren: Jingxiang Sun, Bo Zhang, Ruizhi Shao, Lizhen Wang, Wen Liu, Zhenda Xie, Yebin Liu
cs.AI
Zusammenfassung
Wir präsentieren DreamCraft3D, eine hierarchische Methode zur 3D-Inhaltsgenerierung, die hochwertige und kohärente 3D-Objekte erzeugt. Wir gehen das Problem an, indem wir ein 2D-Referenzbild nutzen, um die Phasen der Geometrieformung und Texturverbesserung zu steuern. Ein zentraler Fokus dieser Arbeit liegt darin, das Konsistenzproblem zu lösen, das bestehende Ansätze aufweisen. Um Geometrien zu formen, die kohärent gerendert werden, führen wir Score Distillation Sampling über ein sichtabhängiges Diffusionsmodell durch. Dieses 3D-Prior, zusammen mit mehreren Trainingsstrategien, priorisiert die Geometriekonsistenz, beeinträchtigt jedoch die Texturqualität. Wir schlagen weiterhin Bootstrapped Score Distillation vor, um speziell die Textur zu verbessern. Wir trainieren ein personalisiertes Diffusionsmodell, Dreambooth, auf den augmentierten Renderings der Szene, wodurch es mit 3D-Wissen über die optimierte Szene ausgestattet wird. Die Score-Distillation aus diesem 3D-bewussten Diffusions-Prior bietet sichtkonsistente Anleitung für die Szene. Bemerkenswerterweise erreichen wir durch eine abwechselnde Optimierung des Diffusions-Priors und der 3D-Szenendarstellung sich gegenseitig verstärkende Verbesserungen: Die optimierte 3D-Szene unterstützt das Training des szenenspezifischen Diffusionsmodells, das zunehmend sichtkonsistente Anleitung für die 3D-Optimierung bietet. Die Optimierung wird somit gebootstrapped und führt zu einer erheblichen Texturverbesserung. Mit maßgeschneiderten 3D-Priors während der hierarchischen Generierung erzeugt DreamCraft3D kohärente 3D-Objekte mit fotorealistischen Renderings und setzt damit neue Maßstäbe in der 3D-Inhaltsgenerierung. Der Code ist verfügbar unter https://github.com/deepseek-ai/DreamCraft3D.
English
We present DreamCraft3D, a hierarchical 3D content generation method that
produces high-fidelity and coherent 3D objects. We tackle the problem by
leveraging a 2D reference image to guide the stages of geometry sculpting and
texture boosting. A central focus of this work is to address the consistency
issue that existing works encounter. To sculpt geometries that render
coherently, we perform score distillation sampling via a view-dependent
diffusion model. This 3D prior, alongside several training strategies,
prioritizes the geometry consistency but compromises the texture fidelity. We
further propose Bootstrapped Score Distillation to specifically boost the
texture. We train a personalized diffusion model, Dreambooth, on the augmented
renderings of the scene, imbuing it with 3D knowledge of the scene being
optimized. The score distillation from this 3D-aware diffusion prior provides
view-consistent guidance for the scene. Notably, through an alternating
optimization of the diffusion prior and 3D scene representation, we achieve
mutually reinforcing improvements: the optimized 3D scene aids in training the
scene-specific diffusion model, which offers increasingly view-consistent
guidance for 3D optimization. The optimization is thus bootstrapped and leads
to substantial texture boosting. With tailored 3D priors throughout the
hierarchical generation, DreamCraft3D generates coherent 3D objects with
photorealistic renderings, advancing the state-of-the-art in 3D content
generation. Code available at https://github.com/deepseek-ai/DreamCraft3D.