DreamCraft3D: Generación Jerárquica de 3D con Prior de Difusión Arrancada
DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior
October 25, 2023
Autores: Jingxiang Sun, Bo Zhang, Ruizhi Shao, Lizhen Wang, Wen Liu, Zhenda Xie, Yebin Liu
cs.AI
Resumen
Presentamos DreamCraft3D, un método jerárquico de generación de contenido 3D que produce objetos 3D de alta fidelidad y coherencia. Abordamos el problema utilizando una imagen de referencia 2D para guiar las etapas de esculpido de geometría y mejora de texturas. Un enfoque central de este trabajo es resolver el problema de consistencia que enfrentan los métodos existentes. Para esculpir geometrías que se rendericen de manera coherente, realizamos muestreo de destilación de puntuaciones mediante un modelo de difusión dependiente de la vista. Este previo 3D, junto con varias estrategias de entrenamiento, prioriza la consistencia geométrica pero compromete la fidelidad de las texturas. Además, proponemos la Destilación de Puntuación con Arranque (Bootstrapped Score Distillation) para mejorar específicamente las texturas. Entrenamos un modelo de difusión personalizado, Dreambooth, en las representaciones aumentadas de la escena, dotándolo de conocimiento 3D de la escena que se está optimizando. La destilación de puntuaciones desde este previo de difusión consciente de 3D proporciona una guía consistente en la vista para la escena. Notablemente, mediante una optimización alternada del previo de difusión y la representación de la escena 3D, logramos mejoras mutuamente reforzadas: la escena 3D optimizada ayuda a entrenar el modelo de difusión específico de la escena, el cual ofrece una guía cada vez más consistente en la vista para la optimización 3D. Así, la optimización se arranca y conduce a una mejora sustancial de las texturas. Con previos 3D personalizados a lo largo de la generación jerárquica, DreamCraft3D genera objetos 3D coherentes con renderizaciones fotorrealistas, avanzando el estado del arte en la generación de contenido 3D. Código disponible en https://github.com/deepseek-ai/DreamCraft3D.
English
We present DreamCraft3D, a hierarchical 3D content generation method that
produces high-fidelity and coherent 3D objects. We tackle the problem by
leveraging a 2D reference image to guide the stages of geometry sculpting and
texture boosting. A central focus of this work is to address the consistency
issue that existing works encounter. To sculpt geometries that render
coherently, we perform score distillation sampling via a view-dependent
diffusion model. This 3D prior, alongside several training strategies,
prioritizes the geometry consistency but compromises the texture fidelity. We
further propose Bootstrapped Score Distillation to specifically boost the
texture. We train a personalized diffusion model, Dreambooth, on the augmented
renderings of the scene, imbuing it with 3D knowledge of the scene being
optimized. The score distillation from this 3D-aware diffusion prior provides
view-consistent guidance for the scene. Notably, through an alternating
optimization of the diffusion prior and 3D scene representation, we achieve
mutually reinforcing improvements: the optimized 3D scene aids in training the
scene-specific diffusion model, which offers increasingly view-consistent
guidance for 3D optimization. The optimization is thus bootstrapped and leads
to substantial texture boosting. With tailored 3D priors throughout the
hierarchical generation, DreamCraft3D generates coherent 3D objects with
photorealistic renderings, advancing the state-of-the-art in 3D content
generation. Code available at https://github.com/deepseek-ai/DreamCraft3D.