DreamCraft3D: Geração Hierárquica de 3D com Prior de Difusão Bootstrapped
DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior
October 25, 2023
Autores: Jingxiang Sun, Bo Zhang, Ruizhi Shao, Lizhen Wang, Wen Liu, Zhenda Xie, Yebin Liu
cs.AI
Resumo
Apresentamos o DreamCraft3D, um método hierárquico de geração de conteúdo 3D que produz objetos 3D de alta fidelidade e coerentes. Abordamos o problema utilizando uma imagem de referência 2D para guiar as etapas de escultura de geometria e aprimoramento de textura. Um foco central deste trabalho é resolver o problema de consistência enfrentado por trabalhos existentes. Para esculpir geometrias que renderizam de forma coerente, realizamos amostragem por destilação de pontuação (score distillation sampling) por meio de um modelo de difusão dependente da visão. Esse prior 3D, juntamente com várias estratégias de treinamento, prioriza a consistência da geometria, mas compromete a fidelidade da textura. Propomos ainda a Destilação de Pontuação com Bootstrapping (Bootstrapped Score Distillation) para especificamente aprimorar a textura. Treinamos um modelo de difusão personalizado, o Dreambooth, nas renderizações aumentadas da cena, dotando-o de conhecimento 3D da cena que está sendo otimizada. A destilação de pontuação a partir desse prior de difusão com consciência 3D fornece orientação consistente em relação à visão para a cena. Notavelmente, por meio de uma otimização alternada do prior de difusão e da representação da cena 3D, alcançamos melhorias que se reforçam mutuamente: a cena 3D otimizada auxilia no treinamento do modelo de difusão específico da cena, que oferece orientação cada vez mais consistente em relação à visão para a otimização 3D. A otimização é, portanto, impulsionada e resulta em um aprimoramento substancial da textura. Com priors 3D personalizados ao longo da geração hierárquica, o DreamCraft3D gera objetos 3D coerentes com renderizações fotorrealistas, avançando o estado da arte na geração de conteúdo 3D. Código disponível em https://github.com/deepseek-ai/DreamCraft3D.
English
We present DreamCraft3D, a hierarchical 3D content generation method that
produces high-fidelity and coherent 3D objects. We tackle the problem by
leveraging a 2D reference image to guide the stages of geometry sculpting and
texture boosting. A central focus of this work is to address the consistency
issue that existing works encounter. To sculpt geometries that render
coherently, we perform score distillation sampling via a view-dependent
diffusion model. This 3D prior, alongside several training strategies,
prioritizes the geometry consistency but compromises the texture fidelity. We
further propose Bootstrapped Score Distillation to specifically boost the
texture. We train a personalized diffusion model, Dreambooth, on the augmented
renderings of the scene, imbuing it with 3D knowledge of the scene being
optimized. The score distillation from this 3D-aware diffusion prior provides
view-consistent guidance for the scene. Notably, through an alternating
optimization of the diffusion prior and 3D scene representation, we achieve
mutually reinforcing improvements: the optimized 3D scene aids in training the
scene-specific diffusion model, which offers increasingly view-consistent
guidance for 3D optimization. The optimization is thus bootstrapped and leads
to substantial texture boosting. With tailored 3D priors throughout the
hierarchical generation, DreamCraft3D generates coherent 3D objects with
photorealistic renderings, advancing the state-of-the-art in 3D content
generation. Code available at https://github.com/deepseek-ai/DreamCraft3D.