DreamTime: Een Verbeterde Optimalisatiestrategie voor Tekst-naar-3D-Inhoudcreatie
DreamTime: An Improved Optimization Strategy for Text-to-3D Content Creation
June 21, 2023
Auteurs: Yukun Huang, Jianan Wang, Yukai Shi, Xianbiao Qi, Zheng-Jun Zha, Lei Zhang
cs.AI
Samenvatting
Text-to-image diffusiemodellen die vooraf zijn getraind op miljarden afbeelding-tekstparen
hebben recentelijk text-to-3D contentcreatie mogelijk gemaakt door een willekeurig
geïnitialiseerd Neural Radiance Fields (NeRF) te optimaliseren met score-distillatie. De
resulterende 3D-modellen vertonen echter twee beperkingen: (a) kwaliteitsproblemen zoals
verzadigde kleuren en het Janus-probleem; (b) extreem lage diversiteit in vergelijking met
tekstgeleide afbeeldingsynthese. In dit artikel tonen we aan dat het conflict tussen het
NeRF-optimalisatieproces en uniforme timestep-bemonstering in score-distillatie de
hoofdoorzaak is van deze beperkingen. Om dit conflict op te lossen, stellen we voor om
timestep-bemonstering te prioriteren met monotoon niet-stijgende functies, wat de NeRF-
optimalisatie afstemt op het bemonsteringsproces van het diffusiemodel. Uitgebreide
experimenten tonen aan dat onze eenvoudige herontwerp de text-to-3D contentcreatie
aanzienlijk verbetert met hogere kwaliteit en diversiteit.
English
Text-to-image diffusion models pre-trained on billions of image-text pairs
have recently enabled text-to-3D content creation by optimizing a randomly
initialized Neural Radiance Fields (NeRF) with score distillation. However, the
resultant 3D models exhibit two limitations: (a) quality concerns such as
saturated color and the Janus problem; (b) extremely low diversity comparing to
text-guided image synthesis. In this paper, we show that the conflict between
NeRF optimization process and uniform timestep sampling in score distillation
is the main reason for these limitations. To resolve this conflict, we propose
to prioritize timestep sampling with monotonically non-increasing functions,
which aligns NeRF optimization with the sampling process of diffusion model.
Extensive experiments show that our simple redesign significantly improves
text-to-3D content creation with higher quality and diversity.