DreamTime: Eine verbesserte Optimierungsstrategie für die Text-zu-3D-Inhaltserstellung
DreamTime: An Improved Optimization Strategy for Text-to-3D Content Creation
June 21, 2023
Autoren: Yukun Huang, Jianan Wang, Yukai Shi, Xianbiao Qi, Zheng-Jun Zha, Lei Zhang
cs.AI
Zusammenfassung
Text-to-Image-Diffusionsmodelle, die mit Milliarden von Bild-Text-Paaren vortrainiert wurden, haben kürzlich die Erstellung von Text-zu-3D-Inhalten ermöglicht, indem sie zufällig initialisierte Neural Radiance Fields (NeRF) mit Score Distillation optimieren. Die resultierenden 3D-Modelle weisen jedoch zwei Einschränkungen auf: (a) Qualitätsprobleme wie gesättigte Farben und das Janus-Problem; (b) extrem geringe Diversität im Vergleich zur textgesteuerten Bildsynthese. In dieser Arbeit zeigen wir, dass der Konflikt zwischen dem NeRF-Optimierungsprozess und der gleichmäßigen Zeitschritt-Abtastung in der Score Distillation die Hauptursache für diese Einschränkungen ist. Um diesen Konflikt zu lösen, schlagen wir vor, die Zeitschritt-Abtastung mit monoton nicht ansteigenden Funktionen zu priorisieren, wodurch die NeRF-Optimierung mit dem Abtastprozess des Diffusionsmodells in Einklang gebracht wird. Umfangreiche Experimente zeigen, dass unser einfaches Redesign die Text-zu-3D-Inhaltserstellung deutlich verbessert, mit höherer Qualität und Diversität.
English
Text-to-image diffusion models pre-trained on billions of image-text pairs
have recently enabled text-to-3D content creation by optimizing a randomly
initialized Neural Radiance Fields (NeRF) with score distillation. However, the
resultant 3D models exhibit two limitations: (a) quality concerns such as
saturated color and the Janus problem; (b) extremely low diversity comparing to
text-guided image synthesis. In this paper, we show that the conflict between
NeRF optimization process and uniform timestep sampling in score distillation
is the main reason for these limitations. To resolve this conflict, we propose
to prioritize timestep sampling with monotonically non-increasing functions,
which aligns NeRF optimization with the sampling process of diffusion model.
Extensive experiments show that our simple redesign significantly improves
text-to-3D content creation with higher quality and diversity.