DreamCraft3D: Hiërarchische 3D-generatie met Bootstrapped Diffusion Prior
DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior
October 25, 2023
Auteurs: Jingxiang Sun, Bo Zhang, Ruizhi Shao, Lizhen Wang, Wen Liu, Zhenda Xie, Yebin Liu
cs.AI
Samenvatting
We presenteren DreamCraft3D, een hiërarchische methode voor 3D-contentgeneratie die hoogwaardige en samenhangende 3D-objecten produceert. We benaderen het probleem door een 2D-referentiebeeld te gebruiken om de fasen van geometrie-sculpting en textuurverbetering te begeleiden. Een centrale focus van dit werk is het aanpakken van het consistentieprobleem waar bestaande methoden tegenaan lopen. Om geometrieën te sculpturen die samenhangend renderen, voeren we score-distillatie-sampling uit via een view-dependent diffusiemodel. Deze 3D-prioriteit, samen met verschillende trainingsstrategieën, benadrukt de geometrieconsistentie maar gaat ten koste van de textuurgetrouwheid. We stellen verder Bootstrapped Score Distillation voor om specifiek de textuur te verbeteren. We trainen een gepersonaliseerd diffusiemodel, Dreambooth, op de geaugmenteerde renderings van de scène, waardoor het 3D-kennis krijgt van de scène die wordt geoptimaliseerd. De score-distillatie vanuit deze 3D-bewuste diffusieprior biedt view-consistente begeleiding voor de scène. Opmerkelijk is dat we door een afwisselende optimalisatie van de diffusieprior en de 3D-scène-representatie wederzijds versterkende verbeteringen bereiken: de geoptimaliseerde 3D-scène helpt bij het trainen van het scènespecifieke diffusiemodel, dat steeds view-consistenter begeleiding biedt voor 3D-optimalisatie. De optimalisatie wordt zo gebootstrapt en leidt tot aanzienlijke textuurverbetering. Met op maat gemaakte 3D-prioriteiten gedurende de hiërarchische generatie, genereert DreamCraft3D samenhangende 3D-objecten met fotorealistische renderings, wat de stand van de techniek in 3D-contentgeneratie vooruithelpt. Code beschikbaar op https://github.com/deepseek-ai/DreamCraft3D.
English
We present DreamCraft3D, a hierarchical 3D content generation method that
produces high-fidelity and coherent 3D objects. We tackle the problem by
leveraging a 2D reference image to guide the stages of geometry sculpting and
texture boosting. A central focus of this work is to address the consistency
issue that existing works encounter. To sculpt geometries that render
coherently, we perform score distillation sampling via a view-dependent
diffusion model. This 3D prior, alongside several training strategies,
prioritizes the geometry consistency but compromises the texture fidelity. We
further propose Bootstrapped Score Distillation to specifically boost the
texture. We train a personalized diffusion model, Dreambooth, on the augmented
renderings of the scene, imbuing it with 3D knowledge of the scene being
optimized. The score distillation from this 3D-aware diffusion prior provides
view-consistent guidance for the scene. Notably, through an alternating
optimization of the diffusion prior and 3D scene representation, we achieve
mutually reinforcing improvements: the optimized 3D scene aids in training the
scene-specific diffusion model, which offers increasingly view-consistent
guidance for 3D optimization. The optimization is thus bootstrapped and leads
to substantial texture boosting. With tailored 3D priors throughout the
hierarchical generation, DreamCraft3D generates coherent 3D objects with
photorealistic renderings, advancing the state-of-the-art in 3D content
generation. Code available at https://github.com/deepseek-ai/DreamCraft3D.